Wyszukiwanie konsensusów w sekwencjach DNA

Slides:



Advertisements
Podobne prezentacje
Egzamin gimnazjalny w roku szkolnym 2010/2011 Wyniki krajowe.
Advertisements

2011 Joanna Bechcińska Bożena Boleska
Urząd Statystyczny w Lublinie Liczy się każdy
Marszałek Województwa Małopolskiego
Odpowiedź od redakcji Do Jan Nowak liczby pierwsze.
POWIAT MYŚLENICKI Tytuł Projektu: Poprawa płynności ruchu w centrum Myślenic poprzez przebudowę skrzyżowań dróg powiatowych K 1935 i K 1967na rondo.
Poziom wdrażania Priorytetów VI - IX Województwo Łódzkie stan na dzień 30 listopada 2009 r. Porównanie Województwa Łódzkiego w skali kraju w roku 2009.
Metody goniometryczne w badaniach materiałów monokrystalicznych
Liczby pierwsze.
Domy Na Wodzie - metoda na wlasne M
MINISTERSTWO ROZWOJU REGIONALNEGO Przebieg realizacji działań dotyczących MSP w ramach Sektorowego Programu Operacyjnego Wzrost konkurencyjności przedsiębiorstw,
Podatki i opłaty lokalne w 2010 roku
NOWE TECHNOLOGIE NA USŁUGACH EDUKACJI Publiczna Szkoła Podstawowa nr 3 w Grodkowie Zajęcia w ramach projektu NTUE.
1 Wdrażanie Działań 2.1, 2.3 i 2.4 II Priorytetu ZPORR Wojewódzki Urząd Pracy w Krakowie 14 marca 2007 r.
UŁAMKI DZIESIĘTNE porównywanie, dodawanie i odejmowanie.
PREPARATYWNA CHROMATOGRAFIA CIECZOWA.
Prezentacja poziomu rozwoju gmin, które nie korzystały z FS w 2006 roku. Eugeniusz Sobczak Politechnika Warszawska KNS i A Wykorzystanie Funduszy.
BIOSTATYSTYKA I METODY DOKUMENTACJI
Wzory ułatwiające obliczenia
ANALIZA BADANIA STATYSTYCZNEGO
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- V Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat a.
Klamki do drzwi Klamki okienne i inne akcesoria
Matura 2005 Wyniki Jarosław Drzeżdżon Matura 2005 V LO w Gdańsku
WYNIKI SPRAWDZIANU SZÓSTOKLASISTY 2010 DLA SZKOŁY.
ANALIZA WYNIKÓW NABORU ELEKTRONICZNEGO do szkół ponadgimnazjalnych
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
Agnieszka Jankowicz-Szymańska1, Wiesław Wojtanowski1,2
Harmonogram naboru do ZPORR w Województwie Małopolskim UNIA EUROPEJSKA FUNDUSZE STRUKTURALNE Marszałek Województwa Małopolskiego Janusz Sepioł
„Rynek pracy w powiecie trzebnickim: struktura bezrobocia i miejsca pracy.”
Cechy podzielności liczb Prezentację przygotował
Ilość młodzieży: 46 Powierzchnia w m : 99 m Powierzchnia w m na jednego młodego człowieka: 2,1 m.
Sprawozdanie z realizacji Budżetu Gminy Zabrodzie za 2007r.
AKASA Bank Sebastian Marchel Anna Karpińska Anna Matusiewicz
KOLEKTOR ZASOBNIK 2 ZASOBNIK 1 POMPA P2 POMPA P1 30°C Zasada działanie instalacji solarnej.
VI przegląd plastyczny z rysunku, malarstwa i rzeźby
EGZAMIN GIMNAZJALNY W SUWAŁKACH 2009 Liczba uczniów przystępująca do egzaminu gimnazjalnego w 2009r. Lp.GimnazjumLiczba uczniów 1Gimnazjum Nr 1 w Zespole.
w ramach projektu Szkoła z Klasą 2.0
1. Pomyśl sobie liczbę dwucyfrową (Na przykład: 62)
1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)
Analiza matury 2013 Opracowała Bernardeta Wójtowicz.
___________________________________ Warszawa, 27 sierpnia 2009 r. Prezentacja wyników za I półrocze 2009 r. Wzrost zysków i przychodów Grupy MNI.
Materiały pochodzą z Platformy Edukacyjnej Portalu
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.
Spływ należności w Branży Elektrycznej
1. Dziennikarz Lekarz Listonosz 2 3 Lekarz  bada ludzi i określa ich stan zdrowia  bada podstawowe obszary życia i określa ich stan w liczbach 4.
Działalność ekonomiczno - finansowa
Wstępna analiza egzaminu gimnazjalnego.
EGZAMINU GIMNAZJALNEGO 2013
EcoCondens Kompakt BBK 7-22 E.
EcoCondens BBS 2,9-28 E.
ZAJĘCIA 8 OBLICZENIE ZBROJENIA SŁUPÓW -ZBROJENIE SYMETRYCZNE - ZBROJENIE NIESYMETRYCZNE KONSTRUKCJE BETONOWE II 2013/2014 MGR. INŻ. Julita Krassowska.
Określanie mimośrodu w elementach ściskanych
Wyniki badań dzieci 10 letnich z realizacji podstawy programowej z wychowania fizycznego po I etapie edukacyjnym- wrzesień 2013, luty- czerwiec 2014 Kuratorium.
User experience studio Użyteczna biblioteka Teraźniejszość i przyszłość informacji naukowej.
WYNIKI EGZAMINU MATURALNEGO W ZESPOLE SZKÓŁ TECHNICZNYCH
Odzyskać obywatelstwo perspektywa makroekonomiczna Anna Zachorowska-Mazurkiewicz Feministyczny Think Tank.
Prognoza nastrojów i działań przedsiębiorców w perspektywie najbliższego półrocza (IVQ2013/IIQ2014)
EGZAMIN GIMNAZJALNY Charakterystyka wyników osiągniętych przez uczniów.
Testogranie TESTOGRANIE Bogdana Berezy.
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VI Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat a.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
Dr hab. Renata Babińska- Górecka
1 Używanie alkoholu i narkotyków przez młodzież szkolną w województwie opolskim w 2007 r. Na podstawie badań przeprowadzonych przez PBS DGA (w pełni porównywalnych.
Współrzędnościowe maszyny pomiarowe
ANKIETA ZOSTAŁA PRZEPROWADZONA WŚRÓD UCZNIÓW GIMNAZJUM ZPO W BORONOWIE.
Ankieta dotycząca kart bankomatowych i kont bankowych.
Elementy geometryczne i relacje
Strategia pomiaru.
LO ŁobżenicaWojewództwoPowiat pilski 2011r.75,81%75,29%65,1% 2012r.92,98%80,19%72,26% 2013r.89,29%80,49%74,37% 2014r.76,47%69,89%63,58% ZDAWALNOŚĆ.
Zapis prezentacji:

Wyszukiwanie konsensusów w sekwencjach DNA Adam Makuchowski Institute of Computer Science Silesian University of Technology Gliwice, 2010

Cel Znalezienie potencjalnych miejsc wiązań zarówno HSF1 (Heat Shock Trancription Factor) i NF-kB w genomie referencyjnym człowieka i myszy. W celu weryfikacji w „obrębie” znalezionych miejsc należy znaleźć również consensus KOZAK, consensus TATA

Konsensus Sekwencja konsensusu powstaje z macierzy dopasowań stworzonej podczas dopasowania wielosekwencyjnego. Jest sposobem reprezentacji wyników, pokazującym, które z nukleotydów są najbardziej konserwatywne w dopasowaniu na każdej pozycji Oś y – Ilość informacji na każdej pozycji w sekwencji, mierzona w bitach. Oś x – pozycja w sekwencji Sequence logo

Obliczanie wysokości (logo) Informacja (y-axis) na i-tej pozycji zadana jest: Dla aminokwasów, Ri = log2(20) − (Hi + en) Dla nukleotydów Ri = 2 − (Hi + en) gdzie Hi jest wielkością entropii na itej pozycji: Gdzie fa,i jest częstością wystąpienia nukleotydu/aminokwasu na i tej pozycji Wysokośc = fa,i * Ri Dodatkowo jest wykorzystywana korekcja en, zadana wzorem:

Tworzenie konsesnusu

Frequency matrix -> position-specific scoring matrix w = log2 ( ( f + sqrt(N) * p ) / ( N + sqrt(N) ) / p ) w = waga na każdej z pozycji f   = liczebność N = łączna liczebność ( suma w kolumnie ) p = prawdopodobieństwo, że wystąpi któryś nukleotyd ( p = 1/4 jedna z 4 możliwości, stale dla zadanego alfabetu ACGT) FM -> PSSM A [ 2  3  4  ] A [ -0,668  -0,2497 0,0744  ] C [ 11 4  5  ] C [ 1,3428  0,07448  0,339 ] G [ 1  2  3  ] G [ -1,2613  -0,6686 -0,249 ] T  [ 1  6  3  ] T [ -1,2613  0,5625  -0,2492 ]

Consensus TATA FREQUENCY MATRIX G [152 18 2 2 5 0 20 44 157 150 128 128 128 139 140 ] T [ 31 309 35 374 30 121 6 121 33 48 31 52 61 75 71 ] Źródło: JASPAR CORE database

Consensus NFKB1 FREQUENCY MATRIX A [ 0 0 0 2 11 5 0 0 0 0 1 ] G [18 18 18 16 6 2 2 0 0 0 1 ] T [ 0 0 0 0 0 11 11 5 1 0 1 ] Źródło: JASPAR CORE database 8

Consensus KOZAK FREQUENCY MATRIX A [ 50 30 17 100 0 0 30 ] Źródło: http://en.wikipedia.org/wiki/Kozak_consensus_sequence A [ 50 30 17 100 0 0 30 ] C [ 12 40 45 0 0 0 20 ] G [ 30 20 28 0 0 100 43 ] T [ 8 10 10 0 100 0 7 ] Obliczenia własne 9

Consensus HSF FREQUENCY MATRIX A [ 9 4 0 0 34 0 90 97 25 25 4 6 0 0 ] Źródło: The Role of Heat Shock Transcription Factor 1 in the Genome-wide Regulation of the Mammalian Heat Shock Response□D Nathan D. Trinklein, John I. Murray, Sara J. Hartman, David Botstein,† and Richard M. Myers‡ FREQUENCY MATRIX A [ 9 4 0 0 34 0 90 97 25 25 4 6 0 0 ] C [ 14 6 100 28 14 0 4 1 25 25 6 0 100 28 ] G [ 0 0 0 12 42 100 6 2 25 25 0 0 0 12 ] T [ 77 90 0 60 14 0 0 0 25 25 90 94 0 60 ] Obliczenia własne 10

Genom referencyjny człowieka Chromosom Liczba genów Wielkość w parach zasad Chromosom 1 2 968 245 203 898 Chromosom 2 2 288 243 315 028 Chromosom 3 2 032 199 411 731 Chromosom 4 1 297 191 610 523 Chromosom 5 1 643 180 967 295 Chromosom 6 1 963 170 740 541 Chromosom 7 1 443 158 431 299 Chromosom 8 1 127 145 908 738 Chromosom 9 1 299 134 505 819 Chromosom 10 1 440 135 480 874 Chromosom 11 2 093 134 978 784 Chromosom 12 1 652 133 464 434 Chromosom 13 748 114 151 656 Chromosom 14 1 098 105 311 216 Chromosom 15 1 122 100 114 055 Chromosom 16 89 995 999 Chromosom 17 1 576 81 691 216 Chromosom 18 766 77 753 510 Chromosom 19 1 454 63 790 860 Chromosom 20 927 63 644 868 Chromosom 21 303 46 976 537 Chromosom 22 288 49 476 972 Chromosom X 1 184 152 634 166 Chromosom Y 231 50 961 097 SUMA 32 040 3 070 521 116

Tworzenie zapytań Interface graficzny w trakcie tworzenia Przykład 1 profile.min.weight.percent=0.5 profile.file=TATA,NFkB,HSF1,KOZAK,1000 Przykład 2 profile.min.weight.percent= TATA,0.7 profile.min.weight.percent= NFkB,0.4 profile.min.weight.percent= 0.8 profile.file=TATA,NFkB, 49 profile.file=NFkB, KOZAK,1000 profile.file=NFkB,HSF1,250

Przetwanianie równoleg (parallel processing) Wczytywanie danych po stronie klienta/servera Wywoływanie zadań wyszukujących konsensus Zbieranie wyników Wyszukiwanie konsensusu

Przetwarzanie rozproszone (distributed processing) Client zarządca Rozsyłanie zadań do listy serwerów Zbieranie wyników JAVA Remote Method Invocation (RMI)

Architektura Dodawanie kolejnych zadań interface Task class TaskThread class CallThread class TaskMain FindConsensus

Kontrolowanie przetwarzania Zmiana parametrów przetwarzania tylko po stronie klienta maksymalna liczba zadań wysłana do serwera wątków na które zadanie podzieli serwer

Wyszukane miejsca Przykładowe wyniki: Plik Cons. Pozycja Znaleziony konsensus Procent podobieńst. chr1.fa TATA 000000751185 CTATAAAAGGCTGGG 0.9181231365232926 chr1.fa NFkB 000000353757 GGGGGTTCCCC 0.9535948363631707 chr1.fa NFkB 000001133537 GGGGGTTCCCC 0.9535948363631707 chr1.fa NFkB 000001337194 GGGGATCCCCC 0.9403582823276164 chr1.fa NFkB 000001970465 GGGGATTTCCC 0.927060010250697 chr1.fa KOZAK 000001002722 ACCATGG 1.0 chr1.fa KOZAK 000001020889 ACCATGG 1.0 chr1.fa KOZAK 000001027846 ACCATGG 1.0 chr1.fa HSF1 000218913800 TTCTTGAAGGTTCT 0.925472561340041

Wyszukane miejsca Przykładowe wyniki: HSF1 18521971 TTCTGGAACCTTCT 1,000 NFkB 18521469 GGGGAATTCCC 0,867 Odstęp między 502 pozycji NFkB 229269807 GGGGCTTCCCC 0,847 HSF1 229269412 TTCTAGAAACTTCT 0,985 Odstęp między 395 pozycji NFkB 33516367 GGGGATGCCCC 0,881 HSF1 33516006 TTCTGGAATTTTCC 0,946 Odstęp między 361 pozycji NFkB 224306741 GGGGATCTCCC 0,867 HSF1 224306625 TTCTGGAAAATTCC 0,946 Odstęp między 116 pozycji

Wstępne porównanie czasów   Czas w minutach Przetwarzanie Sekwencyjne 24,16 Równoległe 3,4 Rozproszone 6,64 Test przeprowdzony na danych: Chromosom 1 Klient 2 rdzeniowy 1.66 Serwer4 rdzeniowy 2.8

Dalsze prace Zaimplemtowanie zrównoleglonych algorytmów dla problemu wyszukiwania motywów (NP-zupełny) Metody oparte o PSSM (alignment) Gibbs Sampling Expectation Maximization Inne metody HMMs Bayesian methods enumerative (combinatorial)

Inni też szukają motywów