Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Metody identyfikacji i lokalizacji sekwencji kodujących w genomie Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska,

Podobne prezentacje


Prezentacja na temat: "Metody identyfikacji i lokalizacji sekwencji kodujących w genomie Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska,"— Zapis prezentacji:

1 Metody identyfikacji i lokalizacji sekwencji kodujących w genomie Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej Jacek Leluk Uniwersytet Zielonogórski Instytut Biotechnologii i Ochrony Środowiska Zakład Biologii Molekularnej

2 Indeks okresowej asymetrii Asymetria pozycji Używanie kodonu Modele Markowa Prototyp kodonu Metody oparte na wzorcowym DNA kodującym Metody niezależne od wzorcowego DNA kodującego Identyfikacja regionów kodujących w genomie występowanie oligonukleotydów tendencje w obsadzeniu pozycji kodonu zależności w obsadzeniu sąsiadujących pozycji tendencje w obsadzeniu pozycji kodonu okresową korelację między pozycjami nukleotydów Średnia informacja względna Widma Fouriera Używanie amino- kwasu Preferencje kodonów Używanie heksamerów wykorzystujące: Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

3 Stosowana notacja S – sekwencja DNA o długości l, gdzie S i ( i=1... l ) określa kolejny nukleotyd C – sekwencja kodonów; C j – kodon zajmujący pozycję j w sekwencji - sekwencja kodonów wynikająca z grupowania nukleotydów sekwencji S w kodony poczynając od nukleotydu i or, - określa kodon nr j odczytywany poczynając od i -tego nukleotydu w sekwencji S [k] - nukleotyd zajmujący pozycję k w kodonie Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

4 Przykłady Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

5 Stosowana notacja Metody wymagające wzorcowego DNA kodującego prawdopodobieństwo wystąpienia kodującej sekwencji S w ramce odczytu i (i=1, 2, 3) prawdopodobieństwo wystąpienia niekodującej sekwencji DNA (wygenerowanej losowo) Współczynnik prawdopodobieństwa stosunek prowadopodobieństwa trafienia na sekwencję S kodującą w ramce odczytu i do prawdopodobieństwa trafienia na niekodującą sekwencję S Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

6 Stosowana notacja Metody wymagające wzorcowego DNA kodującego Logarytm współczynnika prawdopodobieństwa możliwość kodowania przez sekwencję S ramce odczytu i w odniesieniu do wzorcowego DNA kodującego sekwencja S jest przypuszczalnie kodująca w ramce odczytu i sekwencja S jest przypuszczalnie niekodująca w ramce odczytu i Logarytm współczynnika prawdopodobieństwa jest obliczany dla każdej z trzech ramek odczytu. Jeśli sekwencja jest kodująca, jedna z uzyskanych trzech wartości wynikowych będzie wyraźnie większa od dwóch pozostałych. Wartość ta odpowiadać będzie właściwej ramce odczytu DNA kodującego. Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

7 Częstość występowania kodonu (codon usage) Metody wymagające wzorcowego DNA kodującego Pomiary oparte na zliczaniu oligonukleotydów częstość (prawdopodobieństwo) występowania kodonu C w genach badanego gatunku (tablica częstości występowania kodonów) prawdopodobieństwo znalezienia sekwencji kodonów C kodujących białko P 0 (C)=(1/64) m Prawdopodobieństwo znalezienia sekwencji kodonów niekodujących Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

8 Częstość występowania aminokwasu (amino acid usage) Metody wymagające wzorcowego DNA kodującego Pomiary oparte na zliczaniu oligonukleotydów obserwowane prawdopodobieństwo napotkania w białkach aminokwasu kodowanego przez kodon C Wartość ta pochodzi z tablicy częstości występowania kodonu poprzez zsumowanie prawdopodobieństw dla kodonów synonimowych gdzieoznacza c synonimowy do c prawdopodobieństwo znalezienia sekwencji aminokwasowej wynikającej z translacji sekwencji DNA w otwartej ramce odczytu częstość wystepowania aminokwasów wynikających z translacji sekwencji niekodującej; n c – liczba kodonów synonimowych do C Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

9 Preferencje w wyborze kodonu (codon preference) Metody wymagające wzorcowego DNA kodującego Pomiary oparte na zliczaniu oligonukleotydów względne prawdopodobieństwo napotkania kodonu C wśród kodonów synonimowych do C w sekwencji kodującej prawdopodobieństwo wystąpienia sekwencji S kodującej daną sekwencję aminokwasową w ramce odczytu i prawdopodobieństwo wystąpienia kodonu C w DNA niekodujacym Dla sekwencji niekodującej nie ma preferencji pomiędzy kodonami synonimowymi. Zatem: Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

10 Częstość występowania heksamerów (hexamer usage) Metody wymagające wzorcowego DNA kodującego Pomiary oparte na zliczaniu oligonukleotydów Metoda oparta na tablicy częstości występowania heksamerów dla i=1, 2, 3,..., W tym przypadku analizie podlega sześć różnych ramek odczytu. Prawdopodobieństwo wystapienia sekwencji heksanukleotydów, w otwartej ramce odczytu dla sekwencji heksamerów przedstawia się nastepująco: Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

11 Prototyp kodonu (Codon prototype) Metody wymagające wzorcowego DNA kodującego Tendencje w obsadzeniu pozycji kodonu Niech f(b,r) oznacza prawdopodobieństwo wystąpienia nukleotydu b w pozycji r kodonu. Wówczas: P 2 (S) i P 3 (S) obliczane są w podobny sposób jest prawdopodobieństwem wystąpienia kodonu c w regionie kodującym, zakładając niezależność w występowaniu sąsiednich nukleotydów prawdopodobieństwo wystąpienia wszystkich tripletów c w niekodującym DNA Przykład: Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

12 Modele Markowa (Markov Models) Metody wymagające wzorcowego DNA kodującego Tendencje w obsadzeniu kolejnych sąsiadujących pozycji W modelach Markowa prawdopodobieństwo wystąpienia danego nukleotydu w określonej pozycji kodonu zależy od rodzaju nukletydu(-ów) bezpośrednio poprzedzającego (-ych) w sekwencji. Najprostszym przykładem jest model Markowa I rzędu. Model Markowa I rzędu oparty jest na prawdopodobieństwie napotkania każdego z 4 nukletydów w każdej z trzech pozycji kodonu, uwzględniającym zależność od rodzaju nukleotydu, który tę pozycje poprzedza. W metodzie tej wykorzystuje się trzy 4x4 macierze tranzycji (F 1, F 2 i F 3 ), z których każda odnosi się do każdej z trzech pozycji kodonu. Stosowane są modele Markowa rzędu od 1 do 5. Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

13 Asymetria pozycji (Position asymmetry) Metody niezależne od wzorcowego DNA kodującego Tendencje w obsadzeniu pozycji kodonu Istota metody dotyczy pomiaru asymetrii rozkładu rodzajów nukleotydów w każdej z trzech pozycji kodonu względna częstość występowania nukleotydu b w pozycji r kodonu w sekwencji S, obliczona dla jednej z trzech ramek odczytu (którejkolwiek) średnia częstość wystepowania nukleotydu b w trzech pozycjach kodonu asymetria rozkładu nukleotydu b Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

14 Asymetria pozycji (c.d.) (Position asymmetry) Metody niezależne od wzorcowego DNA kodującego Tendencje w obsadzeniu pozycji kodonu Asymetria pozycji w sekwencji Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

15 Indeks okresowej asymetrii (Periodic asymmetry index) Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów Metoda odnosi się do trzech odrębnych prawdopodobieństw: - prawdopodobieństwo P in znalezienia par pozycji o tych samych nukleotydach oddalonych o k=2, 5, 8,... pozycji od siebie - prawdopodobieństwo P 1 out znalezienia par pozycji o tych samych nukleotydach oddalonych o k=0, 3, 6,... pozycji od siebie -prawdopodobieństwo P 2 out znalezienia par pozycji o tych samych nukleotydach oddalonych o k=1, 4, 7,... pozycji od siebie Skłonność do zbierania homogennych dinukleotydów w trójkowy periodyczny wzorzec można oszacować poprzez obliczenie wartości indeksu okresowej asymetrii (Periodic Asymmetry Index): Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

16 Średnia informacja względna (Average mutual information) Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów liczba zdarzeń kiedy nukleotyd j pojawia się za nukleotydem i w odległości k pozycji Korelacja między występowaniem nukleotydów i oraz j w odległości k pozycji: prawdopodobieństwo wystąpienia nukleotydu j za nukleotydem i w odległości k pozycji gdzie p i i p j są prawdopodobieństwem występowania nukleotydów i oraz j w sekwencji S Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

17 Średnia informacja względna (Average mutual information) Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów Funkcja informacji względnej zlicza całą informację na temat występowania dowolnej pary nukleotydów w odległości k Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

18 Średnia informacja względna (Average mutual information) Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów względna informacja in-frame dla dystansów k=2, 5, 8,... Średnia Względna Informacja (Average Mutual Information) względna informacja out-frame dla dystansów k=0, 1, 3, 4,... Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

19 Analiza Fourierowska (Fourier analysis) Metody niezależne od wzorcowego DNA kodującego Okresowa korelacja między pozycjami nukleotydów Odcinki niekodujące nie dają takich okresowych wyników Kodujące odcinki DNA wykazują charakterystyczną okresowość (co 3) dla powtarzających się szczytów na wykresie przy częstości f =1/3 Częściowe spektrum sekwencji S DNA o długości l w odniesieniu do nukleotydu b definiowane jest jako: gdzie U b (S j )=1 jeżeli S j =b, a w innym przypadku jest równe 0, oraz f jest dyskretną częstością, f =k/l, dla k=1, 2,...,l/2 Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

20 Podsumowanie wyników Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

21 Lista programów do identyfikacji genów oraz adresy WWW (część 1) Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

22 Lista programów do identyfikacji genów oraz adresy WWW (część 2) Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska, Zakład Biologii Molekularnej

23 Dziękuję za uwagę


Pobierz ppt "Metody identyfikacji i lokalizacji sekwencji kodujących w genomie Jacek Leluk - Uniwersytet Zielonogórski, Instytut Biotechnologii i Ochrony Środowiska,"

Podobne prezentacje


Reklamy Google