Metody identyfikacji i lokalizacji sekwencji kodujących w genomie

Slides:



Advertisements
Podobne prezentacje
Przykład liczbowy Rozpatrzmy dwuwymiarową zmienną losową (X,Y), gdzie X jest liczbą osób w rodzinie, a Y liczbą izb w mieszkaniu. Niech f.r.p. tej zmiennej.
Advertisements

Funkcje tworzące są wygodnym narzędziem przy badaniu zmiennych losowych o wartościach całkowitych nieujemnych. Funkcje tworzące pierwszy raz badał de.
Polimorfizmy genu TNF- u chorych na reumatoidalne zapalenie stawów
Statystyka Wojciech Jawień
Analiza współzależności zjawisk
Rachunek prawdopodobieństwa 2
Krzysztof Skabek, Przemysław Kowalski
Jak mierzyć asymetrię zjawiska?
ANALIZA STRUKTURY SZEREGU NA PODSTAWIE MIAR STATYSTYCZNYCH
CECHY CHARAKTERYSTYCZNE SZEREGU CZASOWEGO SZEREG CZASOWY jest zbiorem obserwacji zmiennej, uporządkowanych względem czasu (dni,
Analiza współzależności
Zmienność organizmów i jej przyczyny
Instrumenty o charakterze własnościowym Akcje. Literatura Jajuga K., Jajuga T. Inwestycje Jajuga K., Jajuga T. Inwestycje Luenberger D.G. Teoria inwestycji.
Jakość sieci geodezyjnych. Pomiary wykonane z największą starannością, nie dostarczają nam prawdziwej wartości mierzonej wielkości, lecz są zwykle obarczone.
Co nas interesuje? Czy w danym fragmencie DNA jest jakiś gen?
Niepewności przypadkowe
Elementy Rachunku Prawdopodobieństwa c.d.
Odkrywanie wzorców sekwencji
Wykład 6 Metody Monte Carlo
Uniwersytet Warszawski
Średnie i miary zmienności
Korelacja, autokorelacja, kowariancja, trendy
Podstawy i zastosowania bioinformatyki
Geny i genomy Biologia.
Hipoteza cegiełek, k-ramienny bandyta, minimalny problem zwodniczy
Konstrukcja, estymacja parametrów
Analiza współzależności cech statystycznych
Obserwatory zredukowane
„Człowiek - najlepsza inwestycja”
Elementy Rachunku Prawdopodobieństwa i Statystyki
Zasady przywiązywania układów współrzędnych do członów.
Dopuszczalne poziomy hałasu
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Regresja wieloraka.
Aplikacje internetowe
Algorytmy i Struktury Danych
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Co to jest dystrybuanta?
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski.
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Dopasowanie rozkładów
ZAAWANSOWANA ANALIZA SYGNAŁÓW
drzewa filogenetyczne
Algorytmy Genetyczne Anna Tomkowska Politechnika Koszalińska
Program przedmiotu “Opracowywanie danych w chemii” 1.Wprowadzenie: przegląd rodzajów danych oraz metod ich opracowywania. 2.Podstawowe pojęcia rachunku.
Modele zmienności aktywów Model multiplikatywny Parametry siatki dwumianowej.
1 D. Ciołek Analiza danych przekrojowo-czasowych – wykład 7 Analiza danych przekrojowo-czasowych Wykład 7: Testowanie integracji dla danych panelowych.
MODELOWANIE ZMIENNOŚCI CEN AKCJI
Cechy kodu genetycznego
Entropia gazu doskonałego
Podstawowe pojęcia i terminy stosowane w statystyce. Rozkłady częstości Seminarium 2.
Statystyczne parametry akcji Średnie Miary rozproszenia Miary współzależności.
Zbiory fraktalne I Ruchy browna.
Statystyczna analiza danych w praktyce
Jak mierzyć asymetrię zjawiska? Wykład 5. Miary jednej cechy  Miary poziomu  Miary dyspersji (zmienności, zróżnicowania, rozproszenia)  Miary asymetrii.
Statystyczna analiza danych
Statystyczna analiza danych
Analiza sieci społecznych
2.22. Procesy i zasady kodowania informacji genetycznej
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
1.22. Odczytywanie informacji genetycznej – przepis na białko
Niepewności pomiarów. Błąd pomiaru - różnica między wynikiem pomiaru a wartością mierzonej wielkości fizycznej. Bywa też nazywany błędem bezwzględnym.
Biomatematyka Dr Wioleta Drobik-Czwarno
KOD GENETYCZNY I JEGO CECHY
Rodzaje zmian zachodzących w otoczeniu przedsiębiorstwa:
Wprowadzenie do inwestycji
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Sterowanie procesami ciągłymi
Zapis prezentacji:

Metody identyfikacji i lokalizacji sekwencji kodujących w genomie Jacek Leluk Uniwersytet Zielonogórski Instytut Biotechnologii i Ochrony Środowiska Zakład Biologii Molekularnej Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Identyfikacja regionów kodujących w genomie Metody oparte na wzorcowym DNA kodującym Metody niezależne od wzorcowego DNA kodującego wykorzystujące: wykorzystujące: występowanie oligonukleotydów tendencje w obsadzeniu pozycji kodonu zależności w obsadzeniu sąsiadujących pozycji tendencje w obsadzeniu pozycji kodonu okresową korelację między pozycjami nukleotydów Używanie kodonu Prototyp kodonu Modele Markowa Asymetria pozycji Indeks okresowej asymetrii Używanie amino-kwasu Preferencje kodonów Średnia informacja względna Używanie heksamerów Widma Fouriera Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

C – sekwencja kodonów; Cj – kodon zajmujący pozycję j w sekwencji Stosowana notacja S – sekwencja DNA o długości l, gdzie Si (i=1 ... l) określa kolejny nukleotyd C – sekwencja kodonów; Cj – kodon zajmujący pozycję j w sekwencji or - sekwencja kodonów wynikająca z grupowania nukleotydów sekwencji S w kodony poczynając od nukleotydu i , - określa kodon nr j odczytywany poczynając od i-tego nukleotydu w sekwencji S [k] - nukleotyd zajmujący pozycję k w kodonie Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Przykłady Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Metody wymagające wzorcowego DNA kodującego Stosowana notacja prawdopodobieństwo wystąpienia kodującej sekwencji S w ramce odczytu i (i=1, 2, 3) prawdopodobieństwo wystąpienia niekodującej sekwencji DNA (wygenerowanej losowo) Współczynnik prawdopodobieństwa stosunek prowadopodobieństwa trafienia na sekwencję S kodującą w ramce odczytu i do prawdopodobieństwa trafienia na niekodującą sekwencję S Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Stosowana notacja Logarytm współczynnika prawdopodobieństwa Metody wymagające wzorcowego DNA kodującego Stosowana notacja Logarytm współczynnika prawdopodobieństwa możliwość kodowania przez sekwencję S ramce odczytu i w odniesieniu do wzorcowego DNA kodującego sekwencja S jest przypuszczalnie kodująca w ramce odczytu i sekwencja S jest przypuszczalnie niekodująca w ramce odczytu i Logarytm współczynnika prawdopodobieństwa jest obliczany dla każdej z trzech ramek odczytu. Jeśli sekwencja jest kodująca, jedna z uzyskanych trzech wartości wynikowych będzie wyraźnie większa od dwóch pozostałych. Wartość ta odpowiadać będzie właściwej ramce odczytu DNA kodującego. Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Częstość występowania kodonu (codon usage) Metody wymagające wzorcowego DNA kodującego Pomiary oparte na zliczaniu oligonukleotydów Częstość występowania kodonu (codon usage) częstość (prawdopodobieństwo) występowania kodonu C w genach badanego gatunku (tablica częstości występowania kodonów) prawdopodobieństwo znalezienia sekwencji kodonów C kodujących białko P0(C)=(1/64)m Prawdopodobieństwo znalezienia sekwencji „kodonów” niekodujących Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Częstość występowania aminokwasu (amino acid usage) Metody wymagające wzorcowego DNA kodującego Pomiary oparte na zliczaniu oligonukleotydów Częstość występowania aminokwasu (amino acid usage) obserwowane prawdopodobieństwo napotkania w białkach aminokwasu kodowanego przez kodon C Wartość ta pochodzi z tablicy częstości występowania kodonu poprzez zsumowanie prawdopodobieństw dla kodonów synonimowych gdzie oznacza c’ synonimowy do c prawdopodobieństwo znalezienia sekwencji aminokwasowej wynikającej z translacji sekwencji DNA w otwartej ramce odczytu częstość wystepowania „aminokwasów” wynikających z translacji sekwencji niekodującej; nc – liczba kodonów synonimowych do C Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Preferencje w wyborze kodonu (codon preference) Metody wymagające wzorcowego DNA kodującego Pomiary oparte na zliczaniu oligonukleotydów Preferencje w wyborze kodonu (codon preference) względne prawdopodobieństwo napotkania kodonu C wśród kodonów synonimowych do C w sekwencji kodującej prawdopodobieństwo wystąpienia sekwencji S kodującej daną sekwencję aminokwasową w ramce odczytu i Dla sekwencji niekodującej nie ma preferencji pomiędzy „kodonami synonimowymi”. Zatem: prawdopodobieństwo wystąpienia kodonu C w DNA niekodujacym Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Częstość występowania heksamerów (hexamer usage) Metody wymagające wzorcowego DNA kodującego Pomiary oparte na zliczaniu oligonukleotydów Częstość występowania heksamerów (hexamer usage) Metoda oparta na tablicy częstości występowania heksamerów dla i=1, 2, 3, ... , 4096. W tym przypadku analizie podlega sześć różnych ramek odczytu. Prawdopodobieństwo wystapienia sekwencji heksanukleotydów, w otwartej ramce odczytu dla sekwencji heksamerów przedstawia się nastepująco: Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Prototyp kodonu (Codon prototype) Metody wymagające wzorcowego DNA kodującego Tendencje w obsadzeniu pozycji kodonu Prototyp kodonu (Codon prototype) Niech f(b,r) oznacza prawdopodobieństwo wystąpienia nukleotydu b w pozycji r kodonu. Wówczas: jest prawdopodobieństwem wystąpienia kodonu c w regionie kodującym, zakładając niezależność w występowaniu sąsiednich nukleotydów prawdopodobieństwo wystąpienia wszystkich „tripletów” c w niekodującym DNA Przykład: P2(S) i P3(S) obliczane są w podobny sposób Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Modele Markowa (Markov Models) Metody wymagające wzorcowego DNA kodującego Tendencje w obsadzeniu kolejnych sąsiadujących pozycji Modele Markowa (Markov Models) W modelach Markowa prawdopodobieństwo wystąpienia danego nukleotydu w określonej pozycji kodonu zależy od rodzaju nukletydu(-ów) bezpośrednio poprzedzającego (-ych) w sekwencji. Najprostszym przykładem jest model Markowa I rzędu. Model Markowa I rzędu oparty jest na prawdopodobieństwie napotkania każdego z 4 nukletydów w każdej z trzech pozycji kodonu, uwzględniającym zależność od rodzaju nukleotydu, który tę pozycje poprzedza. W metodzie tej wykorzystuje się trzy 4x4 macierze tranzycji (F1, F2 i F3), z których każda odnosi się do każdej z trzech pozycji kodonu. Stosowane są modele Markowa rzędu od 1 do 5. Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Asymetria pozycji (Position asymmetry) Metody niezależne od wzorcowego DNA kodującego Tendencje w obsadzeniu pozycji kodonu Asymetria pozycji (Position asymmetry) Istota metody dotyczy pomiaru asymetrii rozkładu rodzajów nukleotydów w każdej z trzech pozycji kodonu względna częstość występowania nukleotydu b w pozycji r kodonu w sekwencji S, obliczona dla jednej z trzech ramek odczytu (którejkolwiek) średnia częstość wystepowania nukleotydu b w trzech pozycjach kodonu asymetria rozkładu nukleotydu b Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Asymetria pozycji (c.d.) (Position asymmetry) Metody niezależne od wzorcowego DNA kodującego Tendencje w obsadzeniu pozycji kodonu Asymetria pozycji (c.d.) (Position asymmetry) Asymetria pozycji w sekwencji Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Indeks okresowej asymetrii (Periodic asymmetry index) Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów Indeks okresowej asymetrii (Periodic asymmetry index) Metoda odnosi się do trzech odrębnych prawdopodobieństw: prawdopodobieństwo Pin znalezienia par pozycji o tych samych nukleotydach oddalonych o k=2, 5, 8, ... pozycji od siebie prawdopodobieństwo P1out znalezienia par pozycji o tych samych nukleotydach oddalonych o k=0, 3, 6, ... pozycji od siebie prawdopodobieństwo P2out znalezienia par pozycji o tych samych nukleotydach oddalonych o k=1, 4, 7, ... pozycji od siebie Skłonność do zbierania homogennych dinukleotydów w trójkowy periodyczny wzorzec można oszacować poprzez obliczenie wartości indeksu okresowej asymetrii (Periodic Asymmetry Index): Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Średnia informacja względna (Average mutual information) Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów Średnia informacja względna (Average mutual information) liczba zdarzeń kiedy nukleotyd j pojawia się za nukleotydem i w odległości k pozycji prawdopodobieństwo wystąpienia nukleotydu j za nukleotydem i w odległości k pozycji Korelacja między występowaniem nukleotydów i oraz j w odległości k pozycji: gdzie pi i pj są prawdopodobieństwem występowania nukleotydów i oraz j w sekwencji S Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Średnia informacja względna (Average mutual information) Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów Średnia informacja względna (Average mutual information) Funkcja informacji względnej zlicza całą informację na temat występowania dowolnej pary nukleotydów w odległości k Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Średnia informacja względna (Average mutual information) Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów Średnia informacja względna (Average mutual information) względna informacja „in-frame” dla dystansów k=2, 5, 8, ... względna informacja ”out-frame” dla dystansów k=0, 1, 3, 4, ... Średnia Względna Informacja (Average Mutual Information) Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Analiza Fourier’owska (Fourier analysis) Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów Analiza Fourier’owska (Fourier analysis) Częściowe spektrum sekwencji S DNA o długości l w odniesieniu do nukleotydu b definiowane jest jako: gdzie Ub(Sj)=1 jeżeli Sj=b, a w innym przypadku jest równe 0, oraz f jest dyskretną częstością, f =k/l, dla k=1, 2, ... ,l/2 Kodujące odcinki DNA wykazują charakterystyczną okresowość (co 3) dla powtarzających się szczytów na wykresie przy częstości f =1/3 Odcinki niekodujące nie dają takich okresowych wyników Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Podsumowanie wyników Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Lista programów do identyfikacji genów oraz adresy WWW (część 1) Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Lista programów do identyfikacji genów oraz adresy WWW (część 2) Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

Dziękuję za uwagę