Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Bioinformatyczne bazy danych cz. II – Porównywanie i przeszukiwanie Grzegorz Koczyk © 2003-2004.

Podobne prezentacje


Prezentacja na temat: "Bioinformatyczne bazy danych cz. II – Porównywanie i przeszukiwanie Grzegorz Koczyk © 2003-2004."— Zapis prezentacji:

1 Bioinformatyczne bazy danych cz. II – Porównywanie i przeszukiwanie Grzegorz Koczyk ©

2 Sukces bioinformatyki walidacja odpowiedzi na gruncie statystyki algorytmy i programy biologia informatyka biologia molekularna (problemy i dane) konkretyzowanie pytań na gruncie teorii ewolucji matematyka

3 Od sekwencji do funkcji - informacja {A,C,G,T} n {A,R,N,D,C,Q,E,G,H,I,L,K,M,F,P,S,T,W,Y,V} n/3 Funkcja (np. powielanie informacji genetycznej)

4 Porównywanie sekwencji – czy... ? Podobieństwo Pokrewieństwo Statystyczna istotność Biologiczna istotność Podobieństwo sekwencji Podobieństwo struktury Podobieństwo funkcji

5 Porównywanie sekwencji - metody Dot Plot Alignment wykres podobieństwa sekwencji K-tuple methods (FASTA, BLAST) metody przybliżone, szybkie

6 Dot Plot Porównywanie sekwencji podzielonej na okna o określonej długości. Przykładowy DotPlot dla: window = 2 stringency = 2BABAOBABB A O B A B Tego DotPlot już nie złapał ! Parametry: - window (wielkość okna – liczba porównywanych naraz pozycji) - stringency (liczba pozycji które muszą być podobne/identyczne, w oknie)

7 Dot Plot Parametry do wstępnych porównańWindowStringencyDNA1510 Białka 2 lub 3 2 Dywergentne białka 205

8 Dot Plot Dotter

9 Podstawy ewolucyjne Podstawowe zdarzenia na poziomie dwóch (spokrewnionych) sekwencji Zasada parsymonii najlepszy model to ten który tłumaczy zaobserwowane dane przy pomocy najmniejszej ilości zdarzeń ewolucyjnych. substytucja insercja/delecja (indel)

10 Alignment = problem... ? Jak znaleźć takie przeprowadzenie jednej sekwencji w drugą które używa najmniejszej ilości operacji edycji (substytucji, insercji, delecji) ? BAOBA-B BA-BAOB

11 Założenia Każda z operacji edycji wiąże się z pewnym zyskiem lub kosztem.ABOA B O Koszt indela del = 2

12 Alignment – programowanie dynamiczne... a i-1 aiaiaiai b j-1 w i-1,j-1 w i-1,j bjbjbjbj w i,j Rozważmy porównanie dwóch pozycji: (już wyliczony alignment)... a i (już wyliczony alignment)... b j Rozwiązanie problemu całego alignmentu sprowadza się do rozwiązania wszystkich takich podproblemów !!!

13 Alignment – maksymalizacja w i,j... a i-1 aiaiaiai b j-1 w i-1,j-1 w i,j-1 bjbjbjbj w i-1,j w i,j Substytucja:... a i b j... w i,j = w i-1,j-1 + s(a i,b j )

14 Alignment – maksymalizacja w i,j... a i-1 aiaiaiai b j-1 w i-1,j-1 w i,j-1 bjbjbjbj w i-1,j w i,j Indel:... a i w i,j = w i-1,j + del

15 Alignment – maksymalizacja w i,j... a i-1 aiaiaiai b j-1 w i-1,j-1 w i,j-1 bjbjbjbj w i-1,j w i,j Indel: b j... w i,j = w i,j-1 - del

16 Alignment – programowanie dynamiczneBAOBAB B-2 A-4 B-6 A-10 O-12 B-14 Początkowe zerowe wiersz i kolumna reprezentują gapy na początku alignmentu.

17 Alignment – programowanie dynamiczneBAOBAB B A B A O B

18 BAOBAB B A B A O B Znalezienie alignmentu sprowadza się do: - wypełnienia tablicy m x n, - powrotu po śladach Takie podejście zajmuje czas proporcjonalny do iloczynu długości obydwu sekwencji !

19 Indele = gapy Nie jesteśmy w stanie odróżnić delecji w jednej sekwencji od insercji w drugiej. Najprostszy system – każdy gap (przerwa) ma taki sam koszt ale indele często dotyczą większej liczby pozycji stąd odmienny system punktowania gapów (koszt liniowy) koszt gapu o długości n = (n-1)*a +b a – koszt rozszerzenia gapu b – koszt otwarcia gapu

20 Alignment – macierze podobieństwaACGT A C G T

21 Sekwencje białkowe – macierze otrzymywane na podstawie sekwencji o znanej ewolucji (BLOSUM, PAM) i stworzonych ręcznie alignmentach. A 4 R -1 5 N D C BLOSUM62 Q E G H I L K M F P S T W Y V A R N D C Q E G H I L K M F P S T W Y V Domyślna macierz BLASTa

22 PAM (Margaret Dayhoff, 1962) Macierze PAM (Percent of Accepted Mutations) PAM1 sformułowano na podstawie porównywania blisko spokrewnionych sekwencji (gdzie można założyć że żadna mutacja nie trafiła więcej niż raz w to samo miejsce). PAM % identity

23 PAM – zasada tworzenia: PAM1 tworzona z ręcznego alignmentu sekwencji różniących się 1 pozycją / 100 aminokwasów. Większe PAMy są ekstrapolowane z PAM-1. W pewnym momencie następuje wysycenie i kolejne mutacje zaczynają nadpisywać poprzednie. W rzeczywistości PAM-250 odpowiada obserwowalnemu 20% podobieństwu sekwencji. s(a i,a j ) =

24 PAM i BLOSUM: Wyższe macierze PAM opierają się na kumulacji wyników (i błędów ! ) z porównywania blisko spokrewnionych sekwencji. BLOSUM (BLOcks Substitution Matrix) (Henikoff & Henikoff, 1991)

25 Macierze BLOSUM stworzone z bazy danych zalignowanych sekwencji BLOCKS bazują na konserwatywnych regionach, a nie całych sekwencjach żeby nie nadreprezentować wszędobylskich rodzin podobnych sekwencji brano pojedyńczych reprezentantów lub skalowano wagę poszczególnych sekwencji w rodzinie notacja BLOSUM, przeciwna do PAM BLOSUM80 odpowiada 80% identyczności

26 Którą wybrać ? Porównania sekwencji nukleotydowych match +10 mismatch -3 otwarcie gapa -50 rozszerzenie gapa -5 Porównania sekwencji białkowych Porównywanie nieznanych – BLOSUM62 Porównywanie podobnych – PAM15, BLOSUM80 Porównywanie dywergentnych – PAM250, BLOSUM30

27 Alignment – globalny czy lokalny Alignment globalny próba dopasowania sekwencji na całej ich długości. Alignment lokalny próba znalezienia najbardziej podobnych rejonów. Za każdym razem kiedy zakumulowany wynik spada poniżej pewnego poziomu, alignment zaczyna się od 0.

28 Alignment lokalny - przykładBAOBAB B A B A O B Alignment lokalny jest rozszerzany tylko dopóki zakumulowany zysk na dopasowanych pozycjach jest dodatni.

29 Alignment – jak zrobić to efektywnie ? Efektywność jest dobra dla par sekwencji, ale liczba sekwencji w bazach wzrasta wykładniczo Konieczne szybsze narzędzia !... liczba przeszukiwań również (coraz więcej użytkowników)

30 Cięcie kosztów – k-tuple methods Najlepsze dopasowania z reguły: - dobrze dopasowane, widoczne gołym okiem obszary - równolegle do przekątnej tablicy (czyli motywy w tej samej odległości w obydwu sekwencjach) BLAST (Basic Local Alignment Search Tool) Heurystyka dopasowania słowa Heurystyka rozszerzania alignmentu

31 W, T - heurystyka dopasowania słowa RGD17 KGD14 QGD13 RGE13 EGD12 HGD12 NGD12 RGN12 AGD11 MGD11 RAD11 RGQ11 RGS11 RND11 RSD11 SGD11 TGD11 T=12 W=3W=3 Dobre alignmenty zawierają krótkie bardzo podobne obszary w obu sekwencjach (np. motywy związane z katalizą) BLAST tworzy listę krótkich słów występujących w danej sekwencji i ich najbliższych sąsiadów. Skupiska słów na tej samej przekątnej (ziarna dla alignmentu).

32 X – heurystyka rozszerzania alignmentu Alignmenty rozszerzane w obu kierunkach, aż sumaryczny wynik spadnie poniżej X i przycinane do punktu ostatniego maximum The quick brown fox jumps over the lazy dog. The quiet brown cat purrs when she sees him. max = 10 X=5

33 Wzajemne relacje parametrów BLASTa ze wzrostem długości słowa w – wzrasta szybkość i specyficzność, maleje czułość porównań (większe ziarna) ze wzrostem progu dla podobnych słów T – wzrasta szybkość i specyficzność, spada czułość porównań (mniej ziaren) ze wzrostem progu (odcięcia) dla rozszerzania alignmentu X – wzrasta szybkość (zmniejsza się długość alignmentów), zmniejsza się czułość, wzrasta specyficzność (nie są zawierane przypadkowe obszary)

34 Statystyczna ocena wyników - BLAST Statystyka Karlina-Altschula Rozkład wyników (scores) alignmentów z przypadkowymi sekwencjami odpowiada krzywej tzw. EVD (extreme value distribution) P(S>s)

35 Równanie Karlina-Altschula Oczekiwana liczba przypadkowych alignmentów o S s - statystyka Karlina-Altschula jest oparta na wynikach analitycznych tylko dla alignmentów BEZ gapów - dla alignmentów z gapami (takie nas interesują) parametry K i są ustalone empirycznie (porównania z losowo wygenerowanymi sekwencjami, dla ustalonych w, T i K) E-value = Kmne - s Stałe Długość zapytania Długość bazy danych Przestrzeń przeszukiwań Czysty wynik

36 Rodzaje BLASTaProgramBazaSekwencja Typowe użycie BLASTNntnt Mapowanie oligonukleotydów, ESTów, powtórzeń. Identyfikacja pokrewnych transkryptów. BLASTPbiałkobiałko Identyfikacja wspólnych rejonów między białkami. Zbieranie białek do analizy filogenetycznej. BLASTXbiałkont Szukanie kodujących sekwencji w genomach. TBLASTNntbiałko Identyfikowanie transkryptów potencjalnie kodujących pokrewne białka (białka jeszcze nie w GenBanku). Mapowanie białek do genomu. TBLASTXntnt Przewidywanie genów na podstawie ortologów (z innego gatunku). Poszukiwanie genów gubionych przez tradycyjne metody.

37 WWW BLAST – wybór narzędzia BLAST na sekwencjach genomowych poszukiwanie sekwencji o określonej budowie A to co ? odzyskiwanie przechowywanych w NCBI rezultatów

38 WWW BLAST baza danych poszukiwanie domen spacje i myślniki są ignorowane

39 Bazy danych – BLASTN, BLASTX, TBLASTX Baza danych Opis nrCałe GenBank+EMBL+DDBJ+PDB (bez EST, STS, GSS lub sekwencji HTGS fazy 0, 1 lub 2). Tak naprawdę nie jest "non-redundant. pat Sekwencje z działu PAT GenBanku yeast Sekwencje genomowe Saccharomyces cerevisiae ecoli Sekwencje genomowe Escherichia coli Drosophila genome Sekwencje genomowe Drosophila dostarczone przez firmę Celera i Berkeley Drosophila Genome Project (BDGP) month Wszystkie nowe lub uaktualnione sekwencje z GenBanku + EMBL + DDBJ + PDB, z ostatnich 30 dni

40 Bazy danych – BLASTN, BLASTX, TBLASTX Baza danych Opis estWszystkie ESTs z GenBanku+EMBL+DDBJ est_human Ludzkie ESTs z GenBanku + EMBL + DDBJ est_mouse Mysie ESTs z GenBanku + EMBL + DDBJ est_others ESTs innych gatunków z GenBanku + EMBL + DDBJ gss Sekwencje GSS GenBanku + EMBL + DDBJ htgs Sekwencje HTGS z GenBanku + EMBL + DDBJ dbsts Sekwencje STS z GenBanku + DDBJ + EMBL

41 Bazy danych – BLASTP, TBLASTN Baza danych Opis nr Wszystkie nie-redundantne (nie-identyczne) translacje sekwencji CDS (coding) z GenBanku + PDB + SwissProt + PIR + PRF swissprot Ostatni duży zrzut NAJLEPSZEJ bazy białek SwissProt (nie zawiera uaktualnień) pat Białka z działu PAT GenBanku Yeast Translowane sekwencje CDS Saccharomyces cerevisiae ecoli Translowane sekwencje CDS Escherichia coli pdb Sekwencje odpowiadające poszczególnym rekordom struktur 3D w bazie struktur Brookhaven PDB (Protein Data Bank) Drosophila genome Białka kodowane w genomie Drosophila dostarczone przez firmę Celera i Berkeley Drosophila Genome Project (BDGP) month Wszystkie nowe lub uaktualnione translowane sekwencje CDS z GenBanku + PDB + SwissProt + PIR + PRF, z ostatnich 30 dni

42 WWW BLAST - opcje filtrowanie wyników zapytaniem do Entrez (lub taksonem) wybór macierzy (domyślnie BLOSUM62) i kosztów gapów w (heurystyka dopasowania słowa) możliwość ustawienia innych parametrów (w tym T i X)

43 WWW BLAST - opcje filtr sekwencji o niskiej złożoności (m.in. mikrosatelity, tandem repeats ! ) statystyki alignmentu są skalowane zależnie od częstości występowania reszt w obu sekwencjach

44 WWW BLAST - opcje maskowanie sekwencji tylko na etapie heurystyki dopasowania słowa (alignment rozszerzany na zamaskowane obszary) maskowanie ciągów małych liter (można samemu zamaskować fragment)

45 WWW BLAST - formatowanie ograniczenie na tym etapie, nie może być rozluźnione później

46 CDD search Konserwatywne domeny Identyfikator RID

47 Wady BLASTa – szacowanie istotności - wyliczona dla teoretycznego rozkładu z równania Karlina-Altschula, nie z rzeczywistych sekwencji - zakłada losowość sekwencji (rzeczywiste bazy takie nie są) - zakłada że całość bazy można reprezentować jako pojedyńczą długą sekwencję - statystyki są bardzo niedokładne dla krótkich sekwencji (ok. 20 znaków). Wartości wyników są nadal prawidłowe, ale E-wartości są zawyżone (należy podwyższyć poprzeczkę) -UWAGA: Composition Based Statistics – dwa IDENTYCZNE alignmenty mogą mieć inny wynik i E-value

48 Parametry BLASTa – sekwencje białkowe Długość sekwencjiMacierz podobieństwaKoszty gapów <35PAM30(9,1) 35-50PAM70(10,1) 50-85BLOSUM80(10,1) >85BLOSUM62(10,1) Źródło: Makałowski W. [Summer School of Bioinformatics], Poznań, 2003

49 MegaBlast Modyfikacja BLASTN przeznaczona do szybkich porównań sekwencji nt o identyczności >85% (klastrowanie ESTs, rekonstrukcja sekwencji genomowych) Etap dopasowania słowa: - MegaBlast poszukuje dopasowań według wzoru (tolerowane odchylenia na co trzeciej pozycja). - domyślna wielkość słowa 28 Etap rozszerzania alignmentu: - MegaBlast od razu rozpoczyna rozszerzanie dopuszczające gapy (pomija pierwszy etap) - każdy gap obarczony kosztem P = Q – 0.5 (Q – koszt złego dopasowania - mismatch)

50 Parametry BLASTa – sekwencje nt Źródło: Makałowski W. [Summer School of Bioinformatics], Poznań, 2003 Podobieństwo sekwencji Spodziewana długość alignmentu Zalecany program Zalecane opcje 95%1000MegaBLAST -W MegaBLAST -W 84 90%1000MegaBLAST -W MegaBLAST -W 44 80%1000MegaBLAST -W MegaBLAST -W 24 70%1000MegaBLAST -W 12 –t 21 –N MegaBLAST -W 16 60%1000BLASTn -W MegaBLAST -W 12 –t 21 –N 1 50%1000BLASTn -W BLASTn -W 9

51 Multiple alignment Szukanie wspólnych motywów w sekwencjach danej rodziny. Identyfikacja konserwatywnych reszt np. miejsca aktywnego. Konstrukcja modeli białek danej rodziny. CLUSTALX poszukiwanie alignmentu metodą progresywną (porównania sekwencji parami, następnie budowanie alignmentu przez łączenie najbliższych par) Zakonserwana reszta

52 PSSM – Position Specific Scoring Matrix Macierz tworzona jako macierz podobieństwa, ale podstawienia aminokwasów są zależne od pozycji (tu: względem wzorca).PozycjaTRFIITSA R N D C Q E G H I L K M F P S T W Y V

53 PSSM – Position Specific Scoring Matrix Pewne aminokwasy nie występują na wszystkich pozycjach w multiple alignmencie – ale mogą wystąpić w rzeczywistości (dodaje się niewielką wartość - pseudocount). Lepszy schemat bierze pod uwagę również podobieństwo aminokwasów (np. z BLOSUM62). Liczba aminokwasu k na pozycji i w macierzy Koszt podstawienia aminokwasu k przez najlepszy inny w kolumnie (na podstawie BLOSUM62)

54 PSI-BLAST Pojedyńcza sekwencja jest porównywana z bazą (normalny BLAST). Najlepsze trafienia są wybierane (według pewnego progu). Konstruowana jest PSSM, używając sekwencji zapytania jako wzorca według którego ustawia się lokalne alignmenty do trafień. Różne obszary zapytania mogą być reprezentowane przez różną liczbę sekwencji. Profil jest porównywany do bazy, używając PSSM zamiast zwykłej macierzy. Najlepsze trafienia są szacowane i zatrzymywane. Kroki 2 i 3 powtarza się aż do: - przeliczenie zadanej liczby przebiegów (PSI-BLAST iterations) - osiągnięcia konwergencji (żadnych nowych sekwencji w porównaniu z poprzednim krokiem)

55 PSI-BLAST uwagi PSI-BLAST jest podatny na błędy. Gdy jakaś sekwencja wejdzie do profilu zaczyna wyławiać sekwencje podobne do niej samej. Wskazane jest użycie filtrów (np. SEG). Im więcej iteracji i mniejsza poprzeczka tym PSI- BLAST czulszy, ale i mniej specyficzny (patrz wyżej – kumulacja błędów) Potężne narzędzie do wykrywania odległych homologów i zbierania białek tej samej rodziny.

56 Bioinformatyczne bazy danych Dziękuję za uwagę

57 RefSeq – baza sekwencji referencyjnych - poprawione transkrypty i białka. - Homo sapiens - Mus musculus - Rattus norvegicus - Drosophila melanogaster - Danio rerio - Arabidopsis thaliana - ludzkie modelowe transkrypty i białka - kontigi - szkic genomu ludzkiego i genom mysi - zapisy genomów: - genomy bakteryjne - genomy organellarne - genomy eukariotyczne Zapytanie przez: zakładkę Limits słowo kluczowe srcdb_refseq[PROPS]

58 Co jest w imieniu - Accessions RefSeq Accessions Sekwencje mRNA i białka NM_ Curated mRNA NP_ Curated Protein NR_ Curated non-coding RNA XM_ Predicted Transcript XP_ Predicted Protein XR_ Predicted non-coding RNA Rekordy genów: NG_ Reference Genomic Sequence Sekwencje składane: NT_ Contig NW_ Supercontig NC_ Chromosome


Pobierz ppt "Bioinformatyczne bazy danych cz. II – Porównywanie i przeszukiwanie Grzegorz Koczyk © 2003-2004."

Podobne prezentacje


Reklamy Google