Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Metody identyfikacji i lokalizacji sekwencji kodujących w genomie

Podobne prezentacje


Prezentacja na temat: "Metody identyfikacji i lokalizacji sekwencji kodujących w genomie"— Zapis prezentacji:

1 Metody identyfikacji i lokalizacji sekwencji kodujących w genomie
Jacek Leluk Uniwersytet Zielonogórski Instytut Biotechnologii i Ochrony Środowiska Zakład Biologii Molekularnej Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

2 Identyfikacja regionów kodujących w genomie
Metody oparte na wzorcowym DNA kodującym Metody niezależne od wzorcowego DNA kodującego wykorzystujące: wykorzystujące: występowanie oligonukleotydów tendencje w obsadzeniu pozycji kodonu zależności w obsadzeniu sąsiadujących pozycji tendencje w obsadzeniu pozycji kodonu okresową korelację między pozycjami nukleotydów Używanie kodonu Prototyp kodonu Modele Markowa Asymetria pozycji Indeks okresowej asymetrii Używanie amino-kwasu Preferencje kodonów Średnia informacja względna Używanie heksamerów Widma Fouriera Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

3 C – sekwencja kodonów; Cj – kodon zajmujący pozycję j w sekwencji
Stosowana notacja S – sekwencja DNA o długości l, gdzie Si (i=1 ... l) określa kolejny nukleotyd C – sekwencja kodonów; Cj – kodon zajmujący pozycję j w sekwencji or - sekwencja kodonów wynikająca z grupowania nukleotydów sekwencji S w kodony poczynając od nukleotydu i , - określa kodon nr j odczytywany poczynając od i-tego nukleotydu w sekwencji S [k] - nukleotyd zajmujący pozycję k w kodonie Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

4 Przykłady Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

5 Metody wymagające wzorcowego DNA kodującego
Stosowana notacja prawdopodobieństwo wystąpienia kodującej sekwencji S w ramce odczytu i (i=1, 2, 3) prawdopodobieństwo wystąpienia niekodującej sekwencji DNA (wygenerowanej losowo) Współczynnik prawdopodobieństwa stosunek prowadopodobieństwa trafienia na sekwencję S kodującą w ramce odczytu i do prawdopodobieństwa trafienia na niekodującą sekwencję S Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

6 Stosowana notacja Logarytm współczynnika prawdopodobieństwa
Metody wymagające wzorcowego DNA kodującego Stosowana notacja Logarytm współczynnika prawdopodobieństwa możliwość kodowania przez sekwencję S ramce odczytu i w odniesieniu do wzorcowego DNA kodującego sekwencja S jest przypuszczalnie kodująca w ramce odczytu i sekwencja S jest przypuszczalnie niekodująca w ramce odczytu i Logarytm współczynnika prawdopodobieństwa jest obliczany dla każdej z trzech ramek odczytu. Jeśli sekwencja jest kodująca, jedna z uzyskanych trzech wartości wynikowych będzie wyraźnie większa od dwóch pozostałych. Wartość ta odpowiadać będzie właściwej ramce odczytu DNA kodującego. Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

7 Częstość występowania kodonu (codon usage)
Metody wymagające wzorcowego DNA kodującego Pomiary oparte na zliczaniu oligonukleotydów Częstość występowania kodonu (codon usage) częstość (prawdopodobieństwo) występowania kodonu C w genach badanego gatunku (tablica częstości występowania kodonów) prawdopodobieństwo znalezienia sekwencji kodonów C kodujących białko P0(C)=(1/64)m Prawdopodobieństwo znalezienia sekwencji „kodonów” niekodujących Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

8 Częstość występowania aminokwasu (amino acid usage)
Metody wymagające wzorcowego DNA kodującego Pomiary oparte na zliczaniu oligonukleotydów Częstość występowania aminokwasu (amino acid usage) obserwowane prawdopodobieństwo napotkania w białkach aminokwasu kodowanego przez kodon C Wartość ta pochodzi z tablicy częstości występowania kodonu poprzez zsumowanie prawdopodobieństw dla kodonów synonimowych gdzie oznacza c’ synonimowy do c prawdopodobieństwo znalezienia sekwencji aminokwasowej wynikającej z translacji sekwencji DNA w otwartej ramce odczytu częstość wystepowania „aminokwasów” wynikających z translacji sekwencji niekodującej; nc – liczba kodonów synonimowych do C Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

9 Preferencje w wyborze kodonu (codon preference)
Metody wymagające wzorcowego DNA kodującego Pomiary oparte na zliczaniu oligonukleotydów Preferencje w wyborze kodonu (codon preference) względne prawdopodobieństwo napotkania kodonu C wśród kodonów synonimowych do C w sekwencji kodującej prawdopodobieństwo wystąpienia sekwencji S kodującej daną sekwencję aminokwasową w ramce odczytu i Dla sekwencji niekodującej nie ma preferencji pomiędzy „kodonami synonimowymi”. Zatem: prawdopodobieństwo wystąpienia kodonu C w DNA niekodujacym Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

10 Częstość występowania heksamerów (hexamer usage)
Metody wymagające wzorcowego DNA kodującego Pomiary oparte na zliczaniu oligonukleotydów Częstość występowania heksamerów (hexamer usage) Metoda oparta na tablicy częstości występowania heksamerów dla i=1, 2, 3, ... , W tym przypadku analizie podlega sześć różnych ramek odczytu. Prawdopodobieństwo wystapienia sekwencji heksanukleotydów, w otwartej ramce odczytu dla sekwencji heksamerów przedstawia się nastepująco: Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

11 Prototyp kodonu (Codon prototype)
Metody wymagające wzorcowego DNA kodującego Tendencje w obsadzeniu pozycji kodonu Prototyp kodonu (Codon prototype) Niech f(b,r) oznacza prawdopodobieństwo wystąpienia nukleotydu b w pozycji r kodonu. Wówczas: jest prawdopodobieństwem wystąpienia kodonu c w regionie kodującym, zakładając niezależność w występowaniu sąsiednich nukleotydów prawdopodobieństwo wystąpienia wszystkich „tripletów” c w niekodującym DNA Przykład: P2(S) i P3(S) obliczane są w podobny sposób Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

12 Modele Markowa (Markov Models)
Metody wymagające wzorcowego DNA kodującego Tendencje w obsadzeniu kolejnych sąsiadujących pozycji Modele Markowa (Markov Models) W modelach Markowa prawdopodobieństwo wystąpienia danego nukleotydu w określonej pozycji kodonu zależy od rodzaju nukletydu(-ów) bezpośrednio poprzedzającego (-ych) w sekwencji. Najprostszym przykładem jest model Markowa I rzędu. Model Markowa I rzędu oparty jest na prawdopodobieństwie napotkania każdego z 4 nukletydów w każdej z trzech pozycji kodonu, uwzględniającym zależność od rodzaju nukleotydu, który tę pozycje poprzedza. W metodzie tej wykorzystuje się trzy 4x4 macierze tranzycji (F1, F2 i F3), z których każda odnosi się do każdej z trzech pozycji kodonu. Stosowane są modele Markowa rzędu od 1 do 5. Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

13 Asymetria pozycji (Position asymmetry)
Metody niezależne od wzorcowego DNA kodującego Tendencje w obsadzeniu pozycji kodonu Asymetria pozycji (Position asymmetry) Istota metody dotyczy pomiaru asymetrii rozkładu rodzajów nukleotydów w każdej z trzech pozycji kodonu względna częstość występowania nukleotydu b w pozycji r kodonu w sekwencji S, obliczona dla jednej z trzech ramek odczytu (którejkolwiek) średnia częstość wystepowania nukleotydu b w trzech pozycjach kodonu asymetria rozkładu nukleotydu b Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

14 Asymetria pozycji (c.d.) (Position asymmetry)
Metody niezależne od wzorcowego DNA kodującego Tendencje w obsadzeniu pozycji kodonu Asymetria pozycji (c.d.) (Position asymmetry) Asymetria pozycji w sekwencji Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

15 Indeks okresowej asymetrii (Periodic asymmetry index)
Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów Indeks okresowej asymetrii (Periodic asymmetry index) Metoda odnosi się do trzech odrębnych prawdopodobieństw: prawdopodobieństwo Pin znalezienia par pozycji o tych samych nukleotydach oddalonych o k=2, 5, 8, ... pozycji od siebie prawdopodobieństwo P1out znalezienia par pozycji o tych samych nukleotydach oddalonych o k=0, 3, 6, ... pozycji od siebie prawdopodobieństwo P2out znalezienia par pozycji o tych samych nukleotydach oddalonych o k=1, 4, 7, ... pozycji od siebie Skłonność do zbierania homogennych dinukleotydów w trójkowy periodyczny wzorzec można oszacować poprzez obliczenie wartości indeksu okresowej asymetrii (Periodic Asymmetry Index): Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

16 Średnia informacja względna (Average mutual information)
Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów Średnia informacja względna (Average mutual information) liczba zdarzeń kiedy nukleotyd j pojawia się za nukleotydem i w odległości k pozycji prawdopodobieństwo wystąpienia nukleotydu j za nukleotydem i w odległości k pozycji Korelacja między występowaniem nukleotydów i oraz j w odległości k pozycji: gdzie pi i pj są prawdopodobieństwem występowania nukleotydów i oraz j w sekwencji S Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

17 Średnia informacja względna (Average mutual information)
Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów Średnia informacja względna (Average mutual information) Funkcja informacji względnej zlicza całą informację na temat występowania dowolnej pary nukleotydów w odległości k Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

18 Średnia informacja względna (Average mutual information)
Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów Średnia informacja względna (Average mutual information) względna informacja „in-frame” dla dystansów k=2, 5, 8, ... względna informacja ”out-frame” dla dystansów k=0, 1, 3, 4, ... Średnia Względna Informacja (Average Mutual Information) Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

19 Analiza Fourier’owska (Fourier analysis)
Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów Analiza Fourier’owska (Fourier analysis) Częściowe spektrum sekwencji S DNA o długości l w odniesieniu do nukleotydu b definiowane jest jako: gdzie Ub(Sj)=1 jeżeli Sj=b, a w innym przypadku jest równe 0, oraz f jest dyskretną częstością, f =k/l, dla k=1, 2, ... ,l/2 Kodujące odcinki DNA wykazują charakterystyczną okresowość (co 3) dla powtarzających się szczytów na wykresie przy częstości f =1/3 Odcinki niekodujące nie dają takich okresowych wyników Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

20 Podsumowanie wyników Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

21 Lista programów do identyfikacji genów oraz adresy WWW (część 1)
Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

22 Lista programów do identyfikacji genów oraz adresy WWW (część 2)
Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

23 Dziękuję za uwagę


Pobierz ppt "Metody identyfikacji i lokalizacji sekwencji kodujących w genomie"

Podobne prezentacje


Reklamy Google