Konstrukcja drzew filogenetycznych

Slides:



Advertisements
Podobne prezentacje
WPROWADZENIE dr Jacek Śmietański Instytut Informatyki UJ
Advertisements

Metody analizy zależności filogenetycznych
Inżynieria Oprogramowania 10. Szacowanie kosztu oprogramowania cz. 2
Literatura podstawowa
Uniwersytet Warszawski
Bioinformatyczne bazy danych
Metody identyfikacji i lokalizacji sekwencji kodujących w genomie
Heteroduplex Heteroduplex mobility assay
Nowoczesne szczepionki
Małgorzata Gozdecka Dominika Rudnicka
GENOMIKA FUNKCJONALNA U ROŚLIN
Biologiczne bazy danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Zmienność organizmów i jej przyczyny
METODA LOSOWEJ AMPLIFIKACJI POLIMORFICZNEGO DNA (RAPD)
Jakie strategie podczas czytania polskiego hipertekstu stosują uczący się języka polskiego jako obcego?
Aktywność katalityczna enzymów
Magdalena Maj-Żurawska
Zastosowanie programu SYBYL do wygładzania przybliżonych modeli białkowych SEKWENCJA AMINOKWASOWA MODELOWANIE METODĄ DYNAMIKI MONTE CARLO NA TRÓJWYMIAROWEJ.
Analiza korelacji.
Routing i protokoły routingu
Miś Koala.
Wykład 4 Przedziały ufności
mgr inż. Krzysztof E. Oliński Katedra Systemów Decyzyjnych WETI PG
Życiorys Urodzony: Wykształcenie:
Alessandro Fontana Pracownia Modelowania Systemów, IO PAN w Sopocie Urodzony: r. Wykształcenie: studia na kierunku Elektronika (Electronic.
mgr Paweł Noga Katedra Algorytmów i Modelowania Systemów. WETI PG
Życiorys mgr inż. Jacek Dąbrowski Wykształcenie: Praca zawodowa
Życiorys mgr inż. Damian Bogdanowicz Katedra Algorytmów i Modelowania Systemów. WETI PG Urodzony: r. Wykształcenie: studium doktoranckie,
mgr inż. Michał Joachimczak Instytut Oceanologii PAN, Sopot
Paweł Kupis Jacek Mańdziuk
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Modele (hipotezy) zagnieżdżone
Linear Methods of Classification
Additive Models, Trees, and Related Methods
Uniwersytet Warszawski
Struktura i ewolucja genomów roślinnych
DZIEDZICZENIE POZAJĄDROWE
FP-Growth Adam Pieśkiewicz Kamil Niezręcki Krzysztof Grześkowiak
FP-Growth Adam Pieśkiewicz Kamil Niezręcki Krzysztof Grześkowiak Michał Kucal
FP-Growth Adam Pieśkiewicz Kamil Niezręcki Krzysztof Grześkowiak Michał Kucal
Kurs CMKP Podstawy zdrowia publicznego
Geny i genomy Biologia.
Podręczniki Biologia molekularna (seria Krótkie wykłady) red. P. Turner, A.McLennan, A. Bates, M. White; wyd.3. PWN, Biotechnologia Roślin red.
RNA and protein 3D structure modeling: similarities and differences.
Topologie sieci lokalnych.
POZNAŃ SUPERCOMPUTING AND NETWORKING CENTER Systemy zarządzania w środowisku rozproszonym Mirosław Kupczyk
Mutacje genetyczne Zebrał i opracował : Maciej Belcarz.
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Regulacja ekspresji genu
Miejsca fosforylacji in vivo laminy Dm z D. melanogaster
Laboratorium nr.3 Algorytm przyrównania globalnego
drzewa filogenetyczne
Fraktale i samopodobieństwo w biologii i ekologii
Podstawy i zastosowania bioinformatyki II Marek Kudła.
CIRCUITS and SYSTEMS – part II Prof. dr hab. Stanisław Osowski Electrical Engineering (B.Sc.) Projekt współfinansowany przez Unię Europejską w ramach Europejskiego.
Wybrane zagadnienia inteligencji obliczeniowej Zakład Układów i Systemów Nieliniowych I-12 oraz Katedra Mikroelektroniki i Technik Informatycznych proponują.
Biotechnologia a medycyna
Zmiany w informacji genetycznej
Darwinowska teoria doboru naturalnego
Analiza Sieci Społecznych
GeneracjeTechnologia Architektura przetwarzania 0. Przekaźniki elektromechaniczne 1. Lampy elektronowe 2. Tranzystory 3. Układy scalone 3.5.Układy dużej.
2.22. Procesy i zasady kodowania informacji genetycznej
Ewolucja genów i genomów
1.22. Odczytywanie informacji genetycznej – przepis na białko
Analiza danych genomicznych metodami statystycznymi i inteligencji obliczeniowej Wiktor Młynarski
Biomatematyka Dr Wioleta Drobik-Czwarno
Zapis prezentacji:

Konstrukcja drzew filogenetycznych wprowadzenie Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego Uniwersytet Warszawski Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Podobieństwo a homologia –sekwencje są podobne w całości lub fragmentach •Homologia –sekwencje pochodzą od wspólnego przodka Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Ortologi i paralogi •Ortolog – kombinacja genetyczna powstała w wyniku specjacji – można stosować do badań filogenetycznych organizmu •Paralog – efekt duplikacji genu przed specjacją – nie nadaje się do badań filogenezy organizmu Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

•Podobieństwo sekwencji NIE będące rezultatem wspólnego pochodzenia Homoplazja •Podobieństwo sekwencji NIE będące rezultatem wspólnego pochodzenia •Może powstać wskutek ewolucji konwergentnej lub równoległej (parallelism) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Drzewa filogenetyczne •Binarność konstrukcji •Drzewa ukorzenione i nieukorzenione •Topologia drzewa •Długość gałęzi (czas ewolucji) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Filogeneza czego? •Organizmy –Filogeneza całych genomów –Rybosomowe RNA (namiastka genomu) •Szczepy (blisko spokrewnione mikroorganizmy) •Pojedyncze geny (lub rodziny genów) •Powtarzalne sekwencje DNA •Szlaki metaboliczne •Struktury drugorzędowe i trzeciorzędowe •Wszelkie dyskretne symbole •Języki i rodziny językowe Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Po co konstruuje się drzewa filogenetyczne? •Poznanie i zrozumienie historii ewolucyjnej •Mapowanie różnicowania szczepów patogennych do opracowania szczepionek •Wsparcie dla epidemiologów – Choroby infekcyjne – Defekty genetyczne • Narzędzie do przewidywania funkcji nowo odkrytych genów • Badania różnicowania układów biologicznych • Poznanie ekologii mikroorganizmów Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Drzewa ukorzenione i nieukorzenione •Korzeń – uwzględnienie przodka dla wszystkich taksonów •Drzewo nieukorzenione – typowy wynik, nieznany wspólny przodek •Drzewo ukorzenione – znany wspólny przodek Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Jakich sekwencji użyć ? •DNA – Bardzo szczegółowe, niejednolite tempo mutacji •cDNA/RNA – Użyteczne dla bardziej odległych sekwencji homologicznych •Sekwencje białkowe – Użyteczne do badania większości odległych sekwencji homologicznych, możliwość konstrukcji bardzo rozległych ewolucyjnie drzew, bardziej jednolite tempo zmienności mutacyjnej, więcej elementów zmienności Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Sekwencje rybosomowego 16S RNA •Występują we wszystkich organizmach •Są wysoce konserwatywne •Nadają się do konstruowania bardzo rozległych ewolucyjnie drzew •Znane dla kilkudziesięciu tysięcy organizmów, głównie prokariotycznych •Nieodpowiednie do bardzo szcegółowych badań filogenezy Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Co jest obliczane? •Topologia drzewa –porządek (kolejność) odgałęzień –korzeń •Długość odgałęzień (czas ewolucji) •Sekwencje przodków •Wartości pokrewieństwa (np. prawdopodobieństwo poszczególnych przemian) •Wiarygodność drzewa Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Etapy analizy •Pobranie sekwencji DNA/RNA/białka •Wzajemne dopasowanie sekwencji (multiple alignment) •Obliczanie dystansów dla poszczególnych par •Konstruowanie drzewa: topologia + długość odgałęzień •Oszacowanie wiarygodności •Wizualizacja Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Dopasowywanie sekwencji (Multiple Sequence Alignment) •Dopasowanie spokrewnionych sekwencji w taki sposób, żeby odpowiadające sobie pozycje znajdowały się w tej samej kolumnie •Wypełnienie brakujących miejsca kreskami (delecje) •Każda kolumna znaków staje się pojedynczym elementem do dalszych obliczeń filogenetycznych Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Algorytmy do konstruowania drzew filogenetycznych Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Metody obliczeniowe konstruowania drzew filogenetycznych •Metody analizy odległości –UPGMA, metoda najbliższego sąsiedztwa (neighbor joining) •Metoda największej oszczędności (Maximum Parsimony) •Metoda największej szansy (Maximum Likelihood) •Łączenie drzew –Drzewa konsensusowe, superdrzewa Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Pomiar podobieństwa a pomiar odległości –większa wartość =bardziej podobny •Pomiar odległości –większa wartość =mniej podobny –nierówność trójkątnych relacji •|x,y|+|y,z|<or =|x,z| –częste założenie addytywności dla konstrukcji drzew opartych na analizie odległości Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Proste odległości (dystanse) między porównywanymi sekwencjami •Liczba różnych pozycji •Różnice wagowe •Edycja odległości (ważona suma insercji, delecji, substytucji) •Wagowe macierze kosztów substytucji–PAM,BLOSUM •Poprawki Poissona Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Miara odległości między sekwencjami • p =n_d /n • =liczba różniących się symboli /ogólna liczba wszystkich symboli • p nie jest proporcjonalne do czasu ewolucji •Przyczyna: w danym miejscu może zajść więcej niż jedna mutacja •Poprawka Poissona: • d =-ln (1-p) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Pomiar podobieństwa dla struktur białkowych •Utworzenie mapy kontaktów (graf) dla każdej struktury białka –wierzchołek =reszta (aminokwas) –krawędź =odległość między aminokwasami mniejsza niż 5 Angstromów •Dopasowywanie struktur parami –analiza nienakładających się pozycji w porównywanych strukturach •Pomiar podobieństwa –=liczba wspólnych krawędzi z map kontaktów Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Metoda najbliższego sąsiedztwa (Neighbor Joining Distance Method) •Compute pairwise distances,d(i,j),set L =all leaves T •Compute D(i,j)=d(i,j)-(r(i)+r(j)) •r(i)=average distance to other leaves •Merge closest pair of sequences i and j –for new k,set d(k,m)=1/2 (d(i,m)+d(j,m)-d(i,j))for m in L –Add k to T with •set d(i,k)=1/2 (d(i,j)+r(i)-r(j)) •set d(j,k)=d(i,j)-d(i,k) –replace i and j with k in L •Repeat Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Metoda najbliższego sąsiedztwa •Generuje drzewa nieukorzenione •Zakłada addytywność odległości w konstruowanym drzewie Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Cechy metod opartych na obliczaniu odległości (różnic) •Najszybsze metody •Niezbyt dokładne, lub nie zawsze skuteczne wykorzystanie danych •Możliwość korzystania z danych o charakterze niedyskretnym (nie tylko sekwencji) •Niestatystyczny model ewolucji •Brak oszacowania długości odgałęzień Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Metoda największej oszczędności (Maximum Parsimony) •Minimalizacja liczby stanów przejściowych (koniecznych zmian) na szlaku odgałęzień drzewa. •Model niestatystyczny •Brak możliwości obliczenia długości odgałęzień Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Metoda największej oszczędności (Maximum Likelihood) •Model wybitnie statystyczny •Istotna cecha metody =log likelihood (logarytm współczynnika prawdopodobieństwa) •Oblicza długości odgałęzień •Bardzo kosztowna obliczeniowo, stosuje heurystykę •Oszacowuje wiarygodność wyników •Wydajne wykorzystanie danych sekwencyjnych •Przykłady zastosowań:Phylip/dnaML,fastdnaML Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Metoda największej szansy - Założenia •Symbole (nukleotydy) ewoluują niezależnie od siebie •Zmiany tempa mutacji: –Zegar molekularny ==>jednolite tempo dla wszystkich pozycji i odgalęzień –Możliwa jest zmiana tempa zmienności mutacyjnej dla pozycji Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Łączenie drzew filogenetycznych •Drzewa konsensusowe –Dla drzew konstruowanych na tych sanych taksonach •Superdrzewa –Dla drzew zawierających nakładające się grupy taksonomiczne Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Superdrzewa •Superdrzewa konstruowane są z drzew obejmujących zachodzące na siebie grupy taksonomiczne •Superdrzewa są sposobem na konstruowanie bardzo dużych (rozległych ewolucyjnie i taksonomicznie) drzew •Zazwyczaj wymagane jest wyraźne wzajemne zachodzenie przynajmniej dla części par drzew (wspólne elementy) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Filogeneza całych genomów •Badana jest na poziomie genów (nie sekwencji) •Stanowi wgląd w szersze przeorganizowanie genomu •Skuteczne podejście do badań odległych powiązań i bardziej globalnych mechanizmów zmienności •Uwzględnia inwersje i translokacje •Obecnie bardzo skuteczne narzędzie do badań filogenezy i ewolucji organizmów prokariotycznych Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Dobór właściwego algorytmu •Niedyskretny charakter zmiennych jednostek, duża ilość danych, niewielkie zasoby obliczeniowe ==> Metoda najbliższego sąsiedztwa (Neighbor joining) •Dyskretny charakter zmiennych, niewielka liczba mutacji/homoplazja ==> Maximum Parsimony •Dyskretny charakter zmiennych, ograniczona długość sekwencji, występowanie zjawiska homoplazji ==>Maximum Likelihood • Dyskretny charakter zmiennych, wiele gatunków ==>Superdrzewo •Kompletne genomy ==>Filogeneza całych genomów Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Zasoby internetowe •Felsenstein ’s Phylogenetic Program Directory –http://evolution.genetics.washington.edu/phylip.html •UT Austin Phylogenetics Lab –http://kristin.csres.utexas.edu/ •Woese Lab –http://www.life.uiuc.edu/micro/woese.html •Tree-of-life web site –http://tolweb.org/tree/phylogeny.html Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Książki o tematyce filogenetycznej •Graur,Li.Fundamentals of Molecular Evolution,Sinauer •Hall,Phylogenetics Made Easy ,Sinauer •Hillis,Moritz,Mable.Molecular Systematics ,2nd edition,Sinauer,1996 •Kitching,Forey,Humphries.Cladistics:The Theory and Practice of Parsimony Analysis ,1998 •Kimura,M.The Neutral Theory of Evolution ,Cambridge,1983 •Li.Molecular Evolution ,Sinaeur •Nei,M.&S.Kumar.Molecular Evolution and Phylogenetics ,Oxford,2000 •Page &Holmes.Molecular Evolution:A Phylogenetic Approach,1998 •Smith,J.M.,Evolutionary Genetics ,1998 •Wheeler &Meier.Species Concepts and Phylogenetic Theory ,2000 •Wilkins.Evolution of Developmental Pathways ,Sinaeur,2001 Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Więcej książek o tematyce filogenetycznej •Harvey,Leigh Brown,Smith,Nee.New Uses for New Phylogenies, Oxford,1966 •Crandall,K.(editor)The Evolution of HIV,Johns Hopkins Univ.Press,1999 •Mount,D.W.Bioinformatics:Sequence and Genome Analysis ,Cold Spring Harbor Laboratory Press,2000, Chapter 6 -Phylogenetic Prediction •Doolittle,R.F.Computer Methods for Macromolecular Sequence Analysis ,Methods in Enzymology,vol.266, 1996,Academic Press Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Czasopisma o temetyce filogenetycznej •Cladistics •Molecular Biology and Evolution •Molecular Phylogenetics and Evolution •Systematic Biology •Systematic Zoology •Evolutionary Biology •Taxon •Bioinformatics •J.of Computational Biology •J.of Theoretical Biology •Ecology and Evolutionary Biology Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Konferencje o tematyce filogenetycznej •RECOMB •ISMB (Intelligent Systems for Molecular Biology) •Evolution 2002 •Classification Society of N.America Annual Mtg. •Conf.Of the Int ’l.Federation of Classification Societies (IFCS) •ICSEB (Intl.Conf.On Systematics &Evolutionary Biology) Jacek Leluk Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego, Uniwersytet Warszawski

Dziękuję za uwagę