Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Adam Makuchowski Institute of Computer Science Silesian University of Technology Gliwice, 2010 Wyszukiwanie konsensusów w sekwencjach DNA.

Podobne prezentacje


Prezentacja na temat: "Adam Makuchowski Institute of Computer Science Silesian University of Technology Gliwice, 2010 Wyszukiwanie konsensusów w sekwencjach DNA."— Zapis prezentacji:

1 Adam Makuchowski Institute of Computer Science Silesian University of Technology Gliwice, 2010 Wyszukiwanie konsensusów w sekwencjach DNA

2 Cel Znalezienie potencjalnych miejsc wiązań zarówno HSF1 (Heat Shock Trancription Factor) i NF-kB w genomie referencyjnym człowieka i myszy. W celu weryfikacji w „obrębie” znalezionych miejsc należy znaleźć również consensus KOZAK, consensus TATA

3 Konsensus Sekwencja konsensusu powstaje z macierzy dopasowań stworzonej podczas dopasowania wielosekwencyjnego. Jest sposobem reprezentacji wyników, pokazującym, które z nukleotydów są najbardziej konserwatywne w dopasowaniu na każdej pozycji Sequence logo Oś y – Ilość informacji na każdej pozycji w sekwencji, mierzona w bitach. Oś x – pozycja w sekwencji

4 Obliczanie wysokości (logo) Informacja (y-axis) na i-tej pozycji zadana jest: Dla aminokwasów, Ri = log2(20) − (Hi + en) Dla nukleotydów Ri = 2 − (Hi + en) gdzie Hi jest wielkością entropii na itej pozycji: Gdzie fa,i jest częstością wystąpienia nukleotydu/aminokwasu na i tej pozycji Wysokośc = fa,i * Ri Dodatkowo jest wykorzystywana korekcja en, zadana wzorem:

5 Tworzenie konsesnusu

6 Frequency matrix -> position- specific scoring matrix w = log2 ( ( f + sqrt(N) * p ) / ( N + sqrt(N) ) / p ) w = waga na każdej z pozycji f = liczebność N = łączna liczebność ( suma w kolumnie ) p = prawdopodobieństwo, że wystąpi któryś nukleotyd ( p = 1/4 jedna z 4 możliwości, stale dla zadanego alfabetu ACGT) FM ->PSSM A [ ] A [ -0,668 -0,2497 0,0744 ] C [ ] C [ 1,3428 0, ,339 ] G [ ] G [ -1, , ,249 ] T [ ] T [ -1,2613 0, ,2492 ]

7 Consensus TATA A [ ] C [ ] G [ ] T [ ] FREQUENCY MATRIX Źródło: JASPAR CORE database

8 Consensus NFKB1 A [ ] C [ ] G [ ] T [ ] Źródło: JASPAR CORE database FREQUENCY MATRIX

9 Consensus KOZAK A [ ] C [ ] G [ ] T [ ] Obliczenia własne FREQUENCY MATRIX Źródło:

10 Consensus HSF A [ ] C [ ] G [ ] T [ ] Obliczenia własne FREQUENCY MATRIX Źródło: The Role of Heat Shock Transcription Factor 1 in the Genome-wide Regulation of the Mammalian Heat Shock Response□D Nathan D. Trinklein, John I. Murray, Sara J. Hartman, David Botstein,† and Richard M. Myers‡

11 Genom referencyjny człowieka Chromosom Liczba genów Wielkość w parach zasad Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom Chromosom X Chromosom Y SUMA

12 Tworzenie zapytań Interface graficzny w trakcie tworzenia Przykład 1 profile.min.weight.percent=0.5 profile.file=TATA,NFkB,HSF1,KOZAK,1000 Przykład 2 profile.min.weight.percent= TATA,0.7 profile.min.weight.percent= NFkB,0.4 profile.min.weight.percent= 0.8 profile.file=TATA,NFkB, 49 profile.file=NFkB, KOZAK,1000 profile.file=NFkB,HSF1,250

13 Przetwanianie równoleg ( parallel processing) Wczytywanie danych po stronie klienta/servera Wywoływanie zadań wyszukujących konsensus Zbieranie wyników Wyszukiwanie konsensusu

14 Przetwarzanie rozproszone (distributed processing) JAVA Remote Method Invocation (RMI) Client zarządca Rozsyłanie zadań do listy serwerów Zbieranie wyników

15 Architektura Dodawanie kolejnych zadań interface Task class TaskThread class CallThread class TaskMain FindConsensus

16 Kontrolowanie przetwarzania Zmiana parametrów przetwarzania tylko po stronie klienta maksymalna liczba zadań wysłana do serwera maksymalna liczba wątków na które zadanie podzieli serwer

17 Wyszukane miejsca PlikCons.PozycjaZnaleziony konsensusProcent podobieńst. chr1.faTATA CTATAAAAGGCTGGG chr1.faNFkB GGGGGTTCCCC chr1.faNFkB GGGGGTTCCCC chr1.faNFkB GGGGATCCCCC chr1.faNFkB GGGGATTTCCC chr1.faKOZAK ACCATGG1.0 chr1.faKOZAK ACCATGG1.0 chr1.faKOZAK ACCATGG1.0 chr1.faHSF TTCTTGAAGGTTCT Przykładowe wyniki:

18 HSF TTCTGGAACCTTCT1,000 NFkB GGGGAATTCCC0,867 Odstęp między 502 pozycji NFkB GGGGCTTCCCC0,847 HSF TTCTAGAAACTTCT0,985 Odstęp między 395 pozycji NFkB GGGGATGCCCC0,881 HSF TTCTGGAATTTTCC0,946 Odstęp między 361 pozycji NFkB GGGGATCTCCC0,867 HSF TTCTGGAAAATTCC0,946 Odstęp między 116 pozycji Wyszukane miejsca

19 Wstępne porównanie czasów Czas w minutach Przetwarzanie Sekwencyjne24,16 Przetwarzanie Równoległe3,4 Przetwarzanie Rozproszone6,64 Test przeprowdzony na danych: Chromosom 1 -Klient 2 rdzeniowy Serwer4 rdzeniowy 2.8

20 Dalsze prace Zaimplemtowanie zrównoleglonych algorytmów dla problemu wyszukiwania motywów (NP-zupełny) Metody oparte o PSSM (alignment) Gibbs Sampling Expectation Maximization Inne metody HMMs Bayesian methods enumerative (combinatorial)

21 Inni też szukają motywów


Pobierz ppt "Adam Makuchowski Institute of Computer Science Silesian University of Technology Gliwice, 2010 Wyszukiwanie konsensusów w sekwencjach DNA."

Podobne prezentacje


Reklamy Google