Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Konstrukcja drzew filogenetycznych

Podobne prezentacje


Prezentacja na temat: "Konstrukcja drzew filogenetycznych"— Zapis prezentacji:

1 Konstrukcja drzew filogenetycznych
wprowadzenie Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego Uniwersytet Warszawski Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

2 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

3 Podobieństwo a homologia
–sekwencje są podobne w całości lub fragmentach •Homologia –sekwencje pochodzą od wspólnego przodka Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

4 Ortologi i paralogi •Ortolog – kombinacja genetyczna powstała w wyniku specjacji – można stosować do badań filogenetycznych organizmu •Paralog – efekt duplikacji genu przed specjacją – nie nadaje się do badań filogenezy organizmu Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

5 •Podobieństwo sekwencji NIE będące rezultatem wspólnego pochodzenia
Homoplazja •Podobieństwo sekwencji NIE będące rezultatem wspólnego pochodzenia •Może powstać wskutek ewolucji konwergentnej lub równoległej (parallelism) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

6 Drzewa filogenetyczne
•Binarność konstrukcji •Drzewa ukorzenione i nieukorzenione •Topologia drzewa •Długość gałęzi (czas ewolucji) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

7 Filogeneza czego? •Organizmy –Filogeneza całych genomów
–Rybosomowe RNA (namiastka genomu) •Szczepy (blisko spokrewnione mikroorganizmy) •Pojedyncze geny (lub rodziny genów) •Powtarzalne sekwencje DNA •Szlaki metaboliczne •Struktury drugorzędowe i trzeciorzędowe •Wszelkie dyskretne symbole •Języki i rodziny językowe Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

8 Po co konstruuje się drzewa filogenetyczne?
•Poznanie i zrozumienie historii ewolucyjnej •Mapowanie różnicowania szczepów patogennych do opracowania szczepionek •Wsparcie dla epidemiologów – Choroby infekcyjne – Defekty genetyczne • Narzędzie do przewidywania funkcji nowo odkrytych genów • Badania różnicowania układów biologicznych • Poznanie ekologii mikroorganizmów Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

9 Drzewa ukorzenione i nieukorzenione
•Korzeń – uwzględnienie przodka dla wszystkich taksonów •Drzewo nieukorzenione – typowy wynik, nieznany wspólny przodek •Drzewo ukorzenione – znany wspólny przodek Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

10 Jakich sekwencji użyć ? •DNA
– Bardzo szczegółowe, niejednolite tempo mutacji •cDNA/RNA – Użyteczne dla bardziej odległych sekwencji homologicznych •Sekwencje białkowe – Użyteczne do badania większości odległych sekwencji homologicznych, możliwość konstrukcji bardzo rozległych ewolucyjnie drzew, bardziej jednolite tempo zmienności mutacyjnej, więcej elementów zmienności Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

11 Sekwencje rybosomowego 16S RNA
•Występują we wszystkich organizmach •Są wysoce konserwatywne •Nadają się do konstruowania bardzo rozległych ewolucyjnie drzew •Znane dla kilkudziesięciu tysięcy organizmów, głównie prokariotycznych •Nieodpowiednie do bardzo szcegółowych badań filogenezy Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

12 Co jest obliczane? •Topologia drzewa –porządek (kolejność) odgałęzień
–korzeń •Długość odgałęzień (czas ewolucji) •Sekwencje przodków •Wartości pokrewieństwa (np. prawdopodobieństwo poszczególnych przemian) •Wiarygodność drzewa Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

13 Etapy analizy •Pobranie sekwencji DNA/RNA/białka
•Wzajemne dopasowanie sekwencji (multiple alignment) •Obliczanie dystansów dla poszczególnych par •Konstruowanie drzewa: topologia + długość odgałęzień •Oszacowanie wiarygodności •Wizualizacja Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

14 Dopasowywanie sekwencji (Multiple Sequence Alignment)
•Dopasowanie spokrewnionych sekwencji w taki sposób, żeby odpowiadające sobie pozycje znajdowały się w tej samej kolumnie •Wypełnienie brakujących miejsca kreskami (delecje) •Każda kolumna znaków staje się pojedynczym elementem do dalszych obliczeń filogenetycznych Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

15 Algorytmy do konstruowania drzew filogenetycznych
Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

16 Metody obliczeniowe konstruowania drzew filogenetycznych
•Metody analizy odległości –UPGMA, metoda najbliższego sąsiedztwa (neighbor joining) •Metoda największej oszczędności (Maximum Parsimony) •Metoda największej szansy (Maximum Likelihood) •Łączenie drzew –Drzewa konsensusowe, superdrzewa Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

17 Pomiar podobieństwa a pomiar odległości
–większa wartość =bardziej podobny •Pomiar odległości –większa wartość =mniej podobny –nierówność trójkątnych relacji •|x,y|+|y,z|<or =|x,z| –częste założenie addytywności dla konstrukcji drzew opartych na analizie odległości Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

18 Proste odległości (dystanse) między porównywanymi sekwencjami
•Liczba różnych pozycji •Różnice wagowe •Edycja odległości (ważona suma insercji, delecji, substytucji) •Wagowe macierze kosztów substytucji–PAM,BLOSUM •Poprawki Poissona Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

19 Miara odległości między sekwencjami
• p =n_d /n • =liczba różniących się symboli /ogólna liczba wszystkich symboli • p nie jest proporcjonalne do czasu ewolucji •Przyczyna: w danym miejscu może zajść więcej niż jedna mutacja •Poprawka Poissona: • d =-ln (1-p) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

20 Pomiar podobieństwa dla struktur białkowych
•Utworzenie mapy kontaktów (graf) dla każdej struktury białka –wierzchołek =reszta (aminokwas) –krawędź =odległość między aminokwasami mniejsza niż 5 Angstromów •Dopasowywanie struktur parami –analiza nienakładających się pozycji w porównywanych strukturach •Pomiar podobieństwa –=liczba wspólnych krawędzi z map kontaktów Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

21 Metoda najbliższego sąsiedztwa (Neighbor Joining Distance Method)
•Compute pairwise distances,d(i,j),set L =all leaves T •Compute D(i,j)=d(i,j)-(r(i)+r(j)) •r(i)=average distance to other leaves •Merge closest pair of sequences i and j –for new k,set d(k,m)=1/2 (d(i,m)+d(j,m)-d(i,j))for m in L –Add k to T with •set d(i,k)=1/2 (d(i,j)+r(i)-r(j)) •set d(j,k)=d(i,j)-d(i,k) –replace i and j with k in L •Repeat Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

22 Metoda najbliższego sąsiedztwa
•Generuje drzewa nieukorzenione •Zakłada addytywność odległości w konstruowanym drzewie Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

23 Cechy metod opartych na obliczaniu odległości (różnic)
•Najszybsze metody •Niezbyt dokładne, lub nie zawsze skuteczne wykorzystanie danych •Możliwość korzystania z danych o charakterze niedyskretnym (nie tylko sekwencji) •Niestatystyczny model ewolucji •Brak oszacowania długości odgałęzień Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

24 Metoda największej oszczędności (Maximum Parsimony)
•Minimalizacja liczby stanów przejściowych (koniecznych zmian) na szlaku odgałęzień drzewa. •Model niestatystyczny •Brak możliwości obliczenia długości odgałęzień Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

25 Metoda największej oszczędności (Maximum Likelihood)
•Model wybitnie statystyczny •Istotna cecha metody =log likelihood (logarytm współczynnika prawdopodobieństwa) •Oblicza długości odgałęzień •Bardzo kosztowna obliczeniowo, stosuje heurystykę •Oszacowuje wiarygodność wyników •Wydajne wykorzystanie danych sekwencyjnych •Przykłady zastosowań:Phylip/dnaML,fastdnaML Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

26 Metoda największej szansy
- Założenia •Symbole (nukleotydy) ewoluują niezależnie od siebie •Zmiany tempa mutacji: –Zegar molekularny ==>jednolite tempo dla wszystkich pozycji i odgalęzień –Możliwa jest zmiana tempa zmienności mutacyjnej dla pozycji Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

27 Łączenie drzew filogenetycznych
•Drzewa konsensusowe –Dla drzew konstruowanych na tych sanych taksonach •Superdrzewa –Dla drzew zawierających nakładające się grupy taksonomiczne Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

28 Superdrzewa •Superdrzewa konstruowane są z drzew obejmujących zachodzące na siebie grupy taksonomiczne •Superdrzewa są sposobem na konstruowanie bardzo dużych (rozległych ewolucyjnie i taksonomicznie) drzew •Zazwyczaj wymagane jest wyraźne wzajemne zachodzenie przynajmniej dla części par drzew (wspólne elementy) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

29 Filogeneza całych genomów
•Badana jest na poziomie genów (nie sekwencji) •Stanowi wgląd w szersze przeorganizowanie genomu •Skuteczne podejście do badań odległych powiązań i bardziej globalnych mechanizmów zmienności •Uwzględnia inwersje i translokacje •Obecnie bardzo skuteczne narzędzie do badań filogenezy i ewolucji organizmów prokariotycznych Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

30 Dobór właściwego algorytmu
•Niedyskretny charakter zmiennych jednostek, duża ilość danych, niewielkie zasoby obliczeniowe ==> Metoda najbliższego sąsiedztwa (Neighbor joining) •Dyskretny charakter zmiennych, niewielka liczba mutacji/homoplazja ==> Maximum Parsimony •Dyskretny charakter zmiennych, ograniczona długość sekwencji, występowanie zjawiska homoplazji ==>Maximum Likelihood • Dyskretny charakter zmiennych, wiele gatunków ==>Superdrzewo •Kompletne genomy ==>Filogeneza całych genomów Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

31 Zasoby internetowe •Felsenstein ’s Phylogenetic Program Directory
•UT Austin Phylogenetics Lab •Woese Lab •Tree-of-life web site Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

32 Książki o tematyce filogenetycznej
•Graur,Li.Fundamentals of Molecular Evolution,Sinauer •Hall,Phylogenetics Made Easy ,Sinauer •Hillis,Moritz,Mable.Molecular Systematics ,2nd edition,Sinauer,1996 •Kitching,Forey,Humphries.Cladistics:The Theory and Practice of Parsimony Analysis ,1998 •Kimura,M.The Neutral Theory of Evolution ,Cambridge,1983 •Li.Molecular Evolution ,Sinaeur •Nei,M.&S.Kumar.Molecular Evolution and Phylogenetics ,Oxford,2000 •Page &Holmes.Molecular Evolution:A Phylogenetic Approach,1998 •Smith,J.M.,Evolutionary Genetics ,1998 •Wheeler &Meier.Species Concepts and Phylogenetic Theory ,2000 •Wilkins.Evolution of Developmental Pathways ,Sinaeur,2001 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

33 Więcej książek o tematyce filogenetycznej
•Harvey,Leigh Brown,Smith,Nee.New Uses for New Phylogenies, Oxford,1966 •Crandall,K.(editor)The Evolution of HIV,Johns Hopkins Univ.Press,1999 •Mount,D.W.Bioinformatics:Sequence and Genome Analysis ,Cold Spring Harbor Laboratory Press,2000, Chapter 6 -Phylogenetic Prediction •Doolittle,R.F.Computer Methods for Macromolecular Sequence Analysis ,Methods in Enzymology,vol.266, 1996,Academic Press Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

34 Czasopisma o temetyce filogenetycznej
•Cladistics •Molecular Biology and Evolution •Molecular Phylogenetics and Evolution •Systematic Biology •Systematic Zoology •Evolutionary Biology •Taxon •Bioinformatics •J.of Computational Biology •J.of Theoretical Biology •Ecology and Evolutionary Biology Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

35 Konferencje o tematyce filogenetycznej •RECOMB
•ISMB (Intelligent Systems for Molecular Biology) •Evolution 2002 •Classification Society of N.America Annual Mtg. •Conf.Of the Int ’l.Federation of Classification Societies (IFCS) •ICSEB (Intl.Conf.On Systematics &Evolutionary Biology) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

36 Dziękuję za uwagę


Pobierz ppt "Konstrukcja drzew filogenetycznych"

Podobne prezentacje


Reklamy Google