Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wyszukiwanie konsensusów w sekwencjach DNA

Podobne prezentacje


Prezentacja na temat: "Wyszukiwanie konsensusów w sekwencjach DNA"— Zapis prezentacji:

1 Wyszukiwanie konsensusów w sekwencjach DNA
Adam Makuchowski Institute of Computer Science Silesian University of Technology Gliwice, 2010

2 Cel Znalezienie potencjalnych miejsc wiązań zarówno HSF1 (Heat Shock Trancription Factor) i NF-kB w genomie referencyjnym człowieka i myszy. W celu weryfikacji w „obrębie” znalezionych miejsc należy znaleźć również consensus KOZAK, consensus TATA

3 Konsensus Sekwencja konsensusu powstaje z macierzy dopasowań stworzonej podczas dopasowania wielosekwencyjnego. Jest sposobem reprezentacji wyników, pokazującym, które z nukleotydów są najbardziej konserwatywne w dopasowaniu na każdej pozycji Oś y – Ilość informacji na każdej pozycji w sekwencji, mierzona w bitach. Oś x – pozycja w sekwencji Sequence logo

4 Obliczanie wysokości (logo)
Informacja (y-axis) na i-tej pozycji zadana jest: Dla aminokwasów, Ri = log2(20) − (Hi + en) Dla nukleotydów Ri = 2 − (Hi + en) gdzie Hi jest wielkością entropii na itej pozycji: Gdzie fa,i jest częstością wystąpienia nukleotydu/aminokwasu na i tej pozycji Wysokośc = fa,i * Ri Dodatkowo jest wykorzystywana korekcja en, zadana wzorem:

5 Tworzenie konsesnusu

6 Frequency matrix -> position-specific scoring matrix
w = log2 ( ( f + sqrt(N) * p ) / ( N + sqrt(N) ) / p ) w = waga na każdej z pozycji f   = liczebność N = łączna liczebność ( suma w kolumnie ) p = prawdopodobieństwo, że wystąpi któryś nukleotyd ( p = 1/4 jedna z 4 możliwości, stale dla zadanego alfabetu ACGT) FM -> PSSM A [ 2  3  4  ] A [ -0,668  -0, ,0744  ] C [ 11 4  5  ] C [ 1,3428  0,07448  0, ] G [ 1  2  3  ] G [ -1,2613  -0, ,249 ] T  [ 1  6  3  ] T [ -1,2613  0,5625  -0, ]

7 Consensus TATA FREQUENCY MATRIX
G [ ] T [ ] Źródło: JASPAR CORE database

8 Consensus NFKB1 FREQUENCY MATRIX A [ 0 0 0 2 11 5 0 0 0 0 1 ]
G [ ] T [ ] Źródło: JASPAR CORE database 8

9 Consensus KOZAK FREQUENCY MATRIX A [ 50 30 17 100 0 0 30 ]
Źródło: A [ ] C [ ] G [ ] T [ ] Obliczenia własne 9

10 Consensus HSF FREQUENCY MATRIX A [ 9 4 0 0 34 0 90 97 25 25 4 6 0 0 ]
Źródło: The Role of Heat Shock Transcription Factor 1 in the Genome-wide Regulation of the Mammalian Heat Shock Response□D Nathan D. Trinklein, John I. Murray, Sara J. Hartman, David Botstein,† and Richard M. Myers‡ FREQUENCY MATRIX A [ ] C [ ] G [ ] T [ ] Obliczenia własne 10

11 Genom referencyjny człowieka
Chromosom Liczba genów Wielkość w parach zasad Chromosom 1 2 968 Chromosom 2 2 288 Chromosom 3 2 032 Chromosom 4 1 297 Chromosom 5 1 643 Chromosom 6 1 963 Chromosom 7 1 443 Chromosom 8 1 127 Chromosom 9 1 299 Chromosom 10 1 440 Chromosom 11 2 093 Chromosom 12 1 652 Chromosom 13 748 Chromosom 14 1 098 Chromosom 15 1 122 Chromosom 16 Chromosom 17 1 576 Chromosom 18 766 Chromosom 19 1 454 Chromosom 20 927 Chromosom 21 303 Chromosom 22 288 Chromosom X 1 184 Chromosom Y 231 SUMA 32 040

12 Tworzenie zapytań Interface graficzny w trakcie tworzenia Przykład 1
profile.min.weight.percent=0.5 profile.file=TATA,NFkB,HSF1,KOZAK,1000 Przykład 2 profile.min.weight.percent= TATA,0.7 profile.min.weight.percent= NFkB,0.4 profile.min.weight.percent= 0.8 profile.file=TATA,NFkB, 49 profile.file=NFkB, KOZAK,1000 profile.file=NFkB,HSF1,250

13 Przetwanianie równoleg (parallel processing)
Wczytywanie danych po stronie klienta/servera Wywoływanie zadań wyszukujących konsensus Zbieranie wyników Wyszukiwanie konsensusu

14 Przetwarzanie rozproszone (distributed processing)
Client zarządca Rozsyłanie zadań do listy serwerów Zbieranie wyników JAVA Remote Method Invocation (RMI)

15 Architektura Dodawanie kolejnych zadań interface Task class TaskThread
class CallThread class TaskMain FindConsensus

16 Kontrolowanie przetwarzania
Zmiana parametrów przetwarzania tylko po stronie klienta maksymalna liczba zadań wysłana do serwera wątków na które zadanie podzieli serwer

17 Wyszukane miejsca Przykładowe wyniki:
Plik Cons. Pozycja Znaleziony konsensus Procent podobieńst. chr1.fa TATA CTATAAAAGGCTGGG chr1.fa NFkB GGGGGTTCCCC chr1.fa NFkB GGGGGTTCCCC chr1.fa NFkB GGGGATCCCCC chr1.fa NFkB GGGGATTTCCC chr1.fa KOZAK ACCATGG 1.0 chr1.fa KOZAK ACCATGG 1.0 chr1.fa KOZAK ACCATGG 1.0 chr1.fa HSF TTCTTGAAGGTTCT

18 Wyszukane miejsca Przykładowe wyniki:
HSF TTCTGGAACCTTCT 1,000 NFkB GGGGAATTCCC 0,867 Odstęp między 502 pozycji NFkB GGGGCTTCCCC 0,847 HSF TTCTAGAAACTTCT 0,985 Odstęp między 395 pozycji NFkB GGGGATGCCCC 0,881 HSF TTCTGGAATTTTCC 0,946 Odstęp między 361 pozycji NFkB GGGGATCTCCC 0,867 HSF TTCTGGAAAATTCC 0,946 Odstęp między 116 pozycji

19 Wstępne porównanie czasów
Czas w minutach Przetwarzanie Sekwencyjne 24,16 Równoległe 3,4 Rozproszone 6,64 Test przeprowdzony na danych: Chromosom 1 Klient 2 rdzeniowy 1.66 Serwer4 rdzeniowy 2.8

20 Dalsze prace Zaimplemtowanie zrównoleglonych algorytmów dla problemu wyszukiwania motywów (NP-zupełny) Metody oparte o PSSM (alignment) Gibbs Sampling Expectation Maximization Inne metody HMMs Bayesian methods enumerative (combinatorial)

21 Inni też szukają motywów


Pobierz ppt "Wyszukiwanie konsensusów w sekwencjach DNA"

Podobne prezentacje


Reklamy Google