Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Konstrukcja drzew filogenetycznych wprowadzenie Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski.

Podobne prezentacje


Prezentacja na temat: "Konstrukcja drzew filogenetycznych wprowadzenie Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski."— Zapis prezentacji:

1 Konstrukcja drzew filogenetycznych wprowadzenie Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego Uniwersytet Warszawski

2 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

3 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Podobieństwo a homologia Podobieństwo –sekwencje są podobne w całości lub fragmentach Homologia –sekwencje pochodzą od wspólnego przodka

4 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Ortologi i paralogi Ortolog – kombinacja genetyczna powstała w wyniku specjacji – można stosować do badań filogenetycznych organizmu Paralog – efekt duplikacji genu przed specjacją – nie nadaje się do badań filogenezy organizmu

5 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Homoplazja Podobieństwo sekwencji NIE będące rezultatem wspólnego pochodzenia Może powstać wskutek ewolucji konwergentnej lub równoległej (parallelism)

6 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Drzewa filogenetyczne Binarność konstrukcji Drzewa ukorzenione i nieukorzenione Topologia drzewa Długość gałęzi (czas ewolucji)

7 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Filogeneza czego? Organizmy –Filogeneza całych genomów –Rybosomowe RNA (namiastka genomu) Szczepy (blisko spokrewnione mikroorganizmy) Pojedyncze geny (lub rodziny genów) Powtarzalne sekwencje DNA Szlaki metaboliczne Struktury drugorzędowe i trzeciorzędowe Wszelkie dyskretne symbole Języki i rodziny językowe

8 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Po co konstruuje się drzewa filogenetyczne? Poznanie i zrozumienie historii ewolucyjnej Mapowanie różnicowania szczepów patogennych do opracowania szczepionek Wsparcie dla epidemiologów – Choroby infekcyjne – Defekty genetyczne Narzędzie do przewidywania funkcji nowo odkrytych genów Badania różnicowania układów biologicznych Poznanie ekologii mikroorganizmów

9 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Drzewa ukorzenione i nieukorzenione Korzeń – uwzględnienie przodka dla wszystkich taksonów Drzewo nieukorzenione – typowy wynik, nieznany wspólny przodek Drzewo ukorzenione – znany wspólny przodek

10 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Jakich sekwencji użyć ? DNA – Bardzo szczegółowe, niejednolite tempo mutacji cDNA/RNA – Użyteczne dla bardziej odległych sekwencji homologicznych Sekwencje białkowe – Użyteczne do badania większości odległych sekwencji homologicznych, możliwość konstrukcji bardzo rozległych ewolucyjnie drzew, bardziej jednolite tempo zmienności mutacyjnej, więcej elementów zmienności

11 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Sekwencje rybosomowego 16S RNA Występują we wszystkich organizmach Są wysoce konserwatywne Nadają się do konstruowania bardzo rozległych ewolucyjnie drzew Znane dla kilkudziesięciu tysięcy organizmów, głównie prokariotycznych Nieodpowiednie do bardzo szcegółowych badań filogenezy

12 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Co jest obliczane? Topologia drzewa –porządek (kolejność) odgałęzień –korzeń Długość odgałęzień (czas ewolucji) Sekwencje przodków Wartości pokrewieństwa (np. prawdopodobieństwo poszczególnych przemian) Wiarygodność drzewa

13 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Etapy analizy Pobranie sekwencji DNA/RNA/białka Wzajemne dopasowanie sekwencji (multiple alignment) Obliczanie dystansów dla poszczególnych par Konstruowanie drzewa: topologia + długość odgałęzień Oszacowanie wiarygodności Wizualizacja

14 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Dopasowywanie sekwencji (Multiple Sequence Alignment) Dopasowanie spokrewnionych sekwencji w taki sposób, żeby odpowiadające sobie pozycje znajdowały się w tej samej kolumnie Wypełnienie brakujących miejsca kreskami (delecje) Każda kolumna znaków staje się pojedynczym elementem do dalszych obliczeń filogenetycznych

15 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Algorytmy do konstruowania drzew filogenetycznych

16 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Metody obliczeniowe konstruowania drzew filogenetycznych Metody analizy odległości –UPGMA, metoda najbliższego sąsiedztwa (neighbor joining) Metoda największej oszczędności (Maximum Parsimony) Metoda największej szansy (Maximum Likelihood) Łączenie drzew –Drzewa konsensusowe, superdrzewa

17 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Pomiar podobieństwa a pomiar odległości Pomiar podobieństwa –większa wartość =bardziej podobny Pomiar odległości –większa wartość =mniej podobny –nierówność trójkątnych relacji |x,y|+|y,z|

18 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Proste odległości (dystanse) między porównywanymi sekwencjami Liczba różnych pozycji Różnice wagowe Edycja odległości (ważona suma insercji, delecji, substytucji) Wagowe macierze kosztów substytucji–PAM,BLOSUM Poprawki Poissona

19 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Miara odległości między sekwencjami p =n_d /n =liczba różniących się symboli /ogólna liczba wszystkich symboli p nie jest proporcjonalne do czasu ewolucji Przyczyna: w danym miejscu może zajść więcej niż jedna mutacja Poprawka Poissona: d =-ln (1-p)

20 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Pomiar podobieństwa dla struktur białkowych Utworzenie mapy kontaktów (graf) dla każdej struktury białka –wierzchołek =reszta (aminokwas) –krawędź =odległość między aminokwasami mniejsza niż 5 Angstromów Dopasowywanie struktur parami –analiza nienakładających się pozycji w porównywanych strukturach Pomiar podobieństwa –=liczba wspólnych krawędzi z map kontaktów

21 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Metoda najbliższego sąsiedztwa (Neighbor Joining Distance Method) Compute pairwise distances,d(i,j),set L =all leaves T Compute D(i,j)=d(i,j)-(r(i)+r(j)) r(i)=average distance to other leaves Merge closest pair of sequences i and j –for new k,set d(k,m)=1/2 (d(i,m)+d(j,m)-d(i,j))for m in L –Add k to T with set d(i,k)=1/2 (d(i,j)+r(i)-r(j)) set d(j,k)=d(i,j)-d(i,k) –replace i and j with k in L Repeat

22 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Metoda najbliższego sąsiedztwa Generuje drzewa nieukorzenione Zakłada addytywność odległości w konstruowanym drzewie

23 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Cechy metod opartych na obliczaniu odległości (różnic) Najszybsze metody Niezbyt dokładne, lub nie zawsze skuteczne wykorzystanie danych Możliwość korzystania z danych o charakterze niedyskretnym (nie tylko sekwencji) Niestatystyczny model ewolucji Brak oszacowania długości odgałęzień

24 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Metoda największej oszczędności (Maximum Parsimony) Minimalizacja liczby stanów przejściowych (koniecznych zmian) na szlaku odgałęzień drzewa. Model niestatystyczny Brak możliwości obliczenia długości odgałęzień

25 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Metoda największej oszczędności (Maximum Likelihood) Model wybitnie statystyczny Istotna cecha metody =log likelihood (logarytm współczynnika prawdopodobieństwa) Oblicza długości odgałęzień Bardzo kosztowna obliczeniowo, stosuje heurystykę Oszacowuje wiarygodność wyników Wydajne wykorzystanie danych sekwencyjnych Przykłady zastosowań:Phylip/dnaML,fastdnaML

26 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Metoda największej szansy - Założenia Symbole (nukleotydy) ewoluują niezależnie od siebie Zmiany tempa mutacji: –Zegar molekularny ==>jednolite tempo dla wszystkich pozycji i odgalęzień –Możliwa jest zmiana tempa zmienności mutacyjnej dla pozycji

27 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Łączenie drzew filogenetycznych Drzewa konsensusowe –Dla drzew konstruowanych na tych sanych taksonach Superdrzewa –Dla drzew zawierających nakładające się grupy taksonomiczne

28 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Superdrzewa Superdrzewa konstruowane są z drzew obejmujących zachodzące na siebie grupy taksonomiczne Superdrzewa są sposobem na konstruowanie bardzo dużych (rozległych ewolucyjnie i taksonomicznie) drzew Zazwyczaj wymagane jest wyraźne wzajemne zachodzenie przynajmniej dla części par drzew (wspólne elementy)

29 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Filogeneza całych genomów Badana jest na poziomie genów (nie sekwencji) Stanowi wgląd w szersze przeorganizowanie genomu Skuteczne podejście do badań odległych powiązań i bardziej globalnych mechanizmów zmienności Uwzględnia inwersje i translokacje Obecnie bardzo skuteczne narzędzie do badań filogenezy i ewolucji organizmów prokariotycznych

30 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Dobór właściwego algorytmu Niedyskretny charakter zmiennych jednostek, duża ilość danych, niewielkie zasoby obliczeniowe ==> Metoda najbliższego sąsiedztwa (Neighbor joining) Dyskretny charakter zmiennych, niewielka liczba mutacji/homoplazja ==> Maximum Parsimony Dyskretny charakter zmiennych, ograniczona długość sekwencji, występowanie zjawiska homoplazji ==>Maximum Likelihood Dyskretny charakter zmiennych, wiele gatunków ==>Superdrzewo Kompletne genomy ==>Filogeneza całych genomów

31 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Zasoby internetowe Felsenstein s Phylogenetic Program Directory –http://evolution.genetics.washington.edu/phylip.html UT Austin Phylogenetics Lab –http://kristin.csres.utexas.edu/ Woese Lab –http://www.life.uiuc.edu/micro/woese.html Tree-of-life web site –http://tolweb.org/tree/phylogeny.html

32 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Książki o tematyce filogenetycznej Graur,Li.Fundamentals of Molecular Evolution,Sinauer Hall,Phylogenetics Made Easy,Sinauer Hillis,Moritz,Mable.Molecular Systematics,2nd edition,Sinauer,1996 Kitching,Forey,Humphries.Cladistics:The Theory and Practice of Parsimony Analysis,1998 Kimura,M.The Neutral Theory of Evolution,Cambridge,1983 Li.Molecular Evolution,Sinaeur Nei,M.&S.Kumar.Molecular Evolution and Phylogenetics,Oxford,2000 Page &Holmes.Molecular Evolution:A Phylogenetic Approach,1998 Smith,J.M.,Evolutionary Genetics,1998 Wheeler &Meier.Species Concepts and Phylogenetic Theory,2000 Wilkins.Evolution of Developmental Pathways,Sinaeur,2001

33 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Więcej książek o tematyce filogenetycznej Harvey,Leigh Brown,Smith,Nee.New Uses for New Phylogenies, Oxford,1966 Crandall,K.(editor)The Evolution of HIV,Johns Hopkins Univ.Press,1999 Mount,D.W.Bioinformatics:Sequence and Genome Analysis,Cold Spring Harbor Laboratory Press,2000, Chapter 6 -Phylogenetic Prediction Doolittle,R.F.Computer Methods for Macromolecular Sequence Analysis,Methods in Enzymology,vol.266, 1996,Academic Press

34 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Czasopisma o temetyce filogenetycznej Cladistics Molecular Biology and Evolution Molecular Phylogenetics and Evolution Systematic Biology Systematic Zoology Evolutionary Biology Taxon Bioinformatics J.of Computational Biology J.of Theoretical Biology Ecology and Evolutionary Biology

35 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski Konferencje o tematyce filogenetycznej RECOMB ISMB (Intelligent Systems for Molecular Biology) Evolution 2002 Classification Society of N.America Annual Mtg. Conf.Of the Int l.Federation of Classification Societies (IFCS) ICSEB (Intl.Conf.On Systematics &Evolutionary Biology)

36 Dziękuję za uwagę


Pobierz ppt "Konstrukcja drzew filogenetycznych wprowadzenie Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski."

Podobne prezentacje


Reklamy Google