„Everything should be made

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

Bioinformatyczne bazy danych
Metody identyfikacji i lokalizacji sekwencji kodujących w genomie
Teoria poszukiwania doznań Marvina Zuckermana (1)
Małgorzata Gozdecka Dominika Rudnicka
GENOMIKA FUNKCJONALNA U ROŚLIN
Polimerazy RNA zależne od RNA, wirusy i wyciszanie RNA
Analiza ryzyka projektu
Badania operacyjne. Wykład 1
Algorytmy genetyczne Motto:
Biologiczne bazy danych
Etap 9: Określenie przydatności do oceny narażenia na promieniowanie jonizujące zmian transkryptomu w komórkach krwi obwodowej Dr Kamil Brzóska Centrum.
Krajowy Punkt Kontaktowy 6.PR 1 Andrzej Sławiński NEST Nauka i technologia przyszłości NEST New and Emerging Science and Technology.
Zmienność organizmów i jej przyczyny
METODA LOSOWEJ AMPLIFIKACJI POLIMORFICZNEGO DNA (RAPD)
Dane INFORMACYJNE (do uzupełnienia)
Statystyka w doświadczalnictwie
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Magdalena Maj-Żurawska
Zastosowanie programu SYBYL do wygładzania przybliżonych modeli białkowych SEKWENCJA AMINOKWASOWA MODELOWANIE METODĄ DYNAMIKI MONTE CARLO NA TRÓJWYMIAROWEJ.
Co nas interesuje? Czy w danym fragmencie DNA jest jakiś gen?
Selekcja - nowe perspektywy
Nowe warianty selekcji z wykorzystaniem markerów genetycznych
Niepewności przypadkowe
Jan Iwanik Metody inżynierii finansowej w ubezpieczeniach
PROTEIN MODEL PLATFORM WEBMOBIS Krzysztof Gapiński Marcin Różański Paweł Ślusarczyk Magdalena Ziębińska Promotor: dr inż. Piotr Łukasiak.
Pobieranie próby Populacja generalna: zbiór wyników wszystkich możliwych doświadczeń określonego typu. Próba n-wymiarowa: zbiór n wyników doświadczeń.
Lupinus angustifolius
Uniwersytet Warszawski
Struktura i ewolucja genomów roślinnych
Bioinformatyka dyscyplina nauk biologicznych wywodząca się z biotechnologii (genetyki), zajmująca się stosowaniem narzędzi matematycznych i informatycznych.
DZIEDZICZENIE POZAJĄDROWE
Klasyfikacja dokumentów za pomocą sieci radialnych
Komputerowa analiza sieci genowych
Analiza sieci genowych Agnieszka Marmołowska Jacek Ławrynowicz.
Hipotezy statystyczne
Konstrukcja, estymacja parametrów
UKŁAD IMMUNOLOGICZNY ODPORNOŚCIOWY.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Metody obliczeniowe przewidywania interakcji białek z RNA
MECHANIKA NIEBA WYKŁAD r.
AKTYWNE POSZUKIWANIE PRACY
Homogenizacja Kulawik Krzysztof.
System informacji logistycznej Sieć Dystrybucji Elektrotechnicznej.
Wybrane zagadnienia relacyjnych baz danych
Biotechnologia.
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
VII EKSPLORACJA DANYCH
szeregowe, z rozgałęzieniami, zawierające pętle
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Regulacja ekspresji genu
OLIGONUKLEOTYDY ANTYSENSOWNE (ASO)
Wnioskowanie statystyczne
Znaczenie końca 3’ mRNA w regulacji translacji – rola białka CPEB
Przewidywanie struktury białek
drzewa filogenetyczne
SAMOOCENA JAKO NARZĘDZIE IDENTYFIKACJI RYZYKA W SYSTEMIE KONTROLI ZARZĄDCZEJ Warszawa, 27 kwietnia 2015 r.
Czy komputery zabiją genomikę?. Problemy Ogromne ilości danych do przechowywania Zbyt słabe komputery aby „łączyć” sekwencje Nieoptymalne formaty danych.
Biblioteka ucząca się Roman Tomaszewski Mariusz Polarczyk
Podstawy i zastosowania bioinformatyki II Marek Kudła.
Logical Framework Approach Metoda Macierzy Logicznej
Zmiany w informacji genetycznej
GeneracjeTechnologia Architektura przetwarzania 0. Przekaźniki elektromechaniczne 1. Lampy elektronowe 2. Tranzystory 3. Układy scalone 3.5.Układy dużej.
Rozkłady statystyk z próby dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Wybór nazwy lub słów kluczowych dla interesującego nas szeregu czasowego. Opcjonalnie – ustawienie innych dostępnych atrybutów szukania.
Elementy analizy sieciowej
Podstawy Automatyki Człowiek- najlepsza inwestycja
Selekcja danych Korelacja.
Zapis prezentacji:

„Everything should be made Analogi genów odpornościowych Oryza sativa – ich występowanie i struktura. „Everything should be made as simple, as possible but not simpler." - Albert Einstein Grzegorz Koczyk (2004) http://www.cropnet.pl

Od sekwencji do funkcji - bioinformatyka {A,C,G,T}n Funkcja (np. powielanie informacji genetycznej) {A,R,N,D,C,Q,E,G,H,I,L,K,M,F,P,S,T,W,Y,V}n/3

Homologia Podobieństwo  Pokrewieństwo Homologia Homoplazja

Porównywanie sekwencji – czy... ? NIE można bezpośrednio ocenić homologii. Możemy tylko oceniać ją na podstawie podobieństwa.

Porównywanie sekwencji – czy... ? Statystyczna istotność („nieprzypadkowość”) Biologiczna istotność (homologia) P(S>s) E-value = P(S>s) * n Liczba oczekiwanych false positives przy przeszukiwaniu bazy liczącej n sekwencji

Specyficzna odporność „gen-na-gen” Indukowana odpowiedź obronna przeciwko patogenom (reakcja nadwrażliwości) Specyficzna odporność „gen-na-gen” avr R avr R Odbiór – geny R muszą umożliwiać specyficzne wykrycie konkretnego sygnału - obecności patogenu. Produkt translacji mRNA genu R odbiera sygnał – obecność produktu genu avr (czynnik awirulencji). Przekaz - geny R muszą umożliwiać wywołanie konkretnej reakcji komórki – przekaz sygnały n.p. przez aktywację kaskady kinaz.

Geny odpornościowe - struktura: Cf9 Xa21 LRR LRR SA-CC Błona komórkowa SA kinaza CC TIR-NBS-LRR CC-NBS-LRR LRR LRR Pto kinaza NBS NBS TIR CC

Geny odpornościowe – podstawowe domeny: Nucleotide Binding Site LRR Leucine Rich Repeats NBS Coiled coil / leucine zipper kinase Ser/Thr kinase CC TIR Toll / Interleukin Receptor

Ewolucja genów odpornościowych: Ewolucja – geny R muszą być zdolne do efektywnej odpowiedzi na zmieniające się czynniki w postaci produktów genów avr. Ich ewolucja powinna więc być szybka, a efektywne warianty upowszechniać się w genomie. ALE: Studia porównawcze pokazują że ortologi genów R są bardziej zbliżone do siebie nawzajem niż paralogi. Pewne geny R (Pto, RPS2) to zakonserwowane sekwencje starożytnego (w skali wieku genomu) pchodzenia.

Ewolucja genów R - równowaga: Zamiast skupiania się na efektywności pojedyńczych genów Polimorfizm na poziomie populacji Gwałtowne zmiany specyficzności genów R nadal mogą zachodzi na drodze rekombinacji międzyallelicznej. Odmienne warianty genów R obecne w puli to rezerwuar potencjalnej odporności. Indywidualne geny R są nadal zdolne do szybkiej ewolucji i gwałtownych zmian specyficzności.

Poszukiwanie genów odpornościowych in silico (uwagi): Opisy sekwencji w bazach danych są niedokładne. Lepsze kryteria: wysokie podobieństwo do znanych genów R (E-value < 1e-10; unikanie propagowania fałszywych diagnoz) obecność i względne położenie domen charakterystycznych dla genów R (na podstawie przewidywanej sekwencji białkowej) Geny znalezione przez nasze poszukiwania należą do tej samej klasy strukturalnej, niekoniecznie funkcjonalnej co prawdziwe geny odpornościowe. Stąd: RGA (resistance gene analogs)

Poszukiwanie genów odpornościowych in silico (model) Baza danych sekwencji ryżu (TIGR) BLASTP na zdefiniowanym zbiorze sekwencji referencyjnych HMM („odciski palców”) domen znajdowanych w genach odpornościowych Odpytywanie powstałej struktury danych o RGA (analogi genów odpornościowych) poszczególnych klas strukturalnych. Poszukiwanie nowych wariantów.

Narzędzia – BLASTP - wyszukiwanie sekwencji: Możliwości: poszukiwanie podobieństwa pomiędzy sekwencjami w dużych bazach. ocena prawdopodobieństwa przypadkowego wystąpienia dopasowania do zapytania tak dobrego jak znalezione (E-value). Pułapki: wyniki przeszukiwań są tak dobre jak zbiór sekwencji referencyjnych (niewykryte niewielkie homologie, problemy z wszędobylskimi sekwencjami np. kinazami). ocena prawdopodobieństwa bazuje na pewnym modelu tworzenia losowych sekwencji. Ten model nie musi być zawsze prawdziwy. Omijamy tę wadę używając restrykcyjnych E-value (minimalizacja false positives).

Narzędzia - HMM - „odciski palców” domen: Możliwości: poszukiwanie domen w sekwencjach białkowych. Takie „odciski palców” są dostępne w bazach danych np. Pfam. ocena prawdopodobieństwa przypadkowego wystąpienia dopasowania do „odcisku” tak dobrego jak znalezione. Pułapki: HMMy są tworzone na bazie zbioru sekwencji zawierających domenę – wyniki przeszukiwań są tak dobre jak początkowy zbiór treningowy (przykład: roślinna domena TIR). ocena prawdopodobieństwa bazuje na pewnym modelu tworzenia losowych sekwencji. Ten model nie musi być prawdziwy. Omijamy tę wadę używając empirycznie wyznaczonych gathering thresholds.

Sekwencje referencyjne (przeszukiwanie BLASTP): Klasa Gen Patogen Żywiciel ACC TIR-NBS-LRR RPP5 Peronospora parasitica Arabidopsis thaliana AAF08790.1 N Tobacco Mosaic Virus Nicotiana tabacum A54810 L6 Melampsora lini Linum usitatissimum T18546 M AAB47618.1 CC-NBS-LRR RPS2 Pseudomonas syringae p.v. tomato NP 194339.1 RPM1 p.v. maculicola NP 187360.1

Sekwencje referencyjne (przeszukiwanie BLASTP): Klasa Gen Patogen Żywiciel ACC CC-NBS-LRR I2 Fusarium oxysporium t.sp. lycopersicon Lycopersicon esculentum AAD27815.1 Mla1 Erysiphe graminis f.sp. hordei Hordeum vulgare AAG3736.1 NBS-LRR Pi-ta Magnaporthe grisea Oryza sativa AAK00132.1 Pib BAA76281 Xa1 Xanthomonas oryza p.v. oryzae T00020 Pto Pseudomonas syringae p.v. tomato AAF76313.1 Rpg1 Puccinia graminis f.sp. tritici AAM76922.1

Sekwencje referencyjne (przeszukiwanie BLASTP): Klasa Gen Patogen Żywiciel ACC Cf-9 Cladosporium fulvum  Lycopersicon pimpinellifolium CAA05274.1 Xa21 FLS2 flagellin receptor Arabidopsis thaliana NP_199445.1 Xanthomonas oryzae p.v. oryzae Oryza sativa T04313 SA-CC RPW8.1 Erysiphe cichoraceum AAK09266.1 RPW8.2 AAK09267.1

Rezultaty przeszukiwania (BLASTP i HMMer): Klasa Liczebność TIR 1 CC-NBS-LRR* 109 CC-NBS * 70 NBS-LRR* 265 NBS* 153 Pto 545 Xa21 369 (304)* Cf9 242(91)* SA-CC * Wliczając białka o fragmentarycznych NBS. ** W nawiasie liczba przypadków w których przewidziano domenę TM w prawidłowej orientacji.

Lokalizacja RGA na chromosomach:

Lokalizacja RGA na chromosomach:

Podsumowanie i uwagi: 1. Z 64574 przewidywanych przez IRGSP genów - około 2,7% (1744 sekwencje) są analogami genów R. 2. Przewidywane 597 sekwencji kodujących białka z domeną NBS, jest bardzo bliskie 600 sekwencjom uzyskanym w pierwotnym szacunku dla „draft sequence” ryżu (IRGSP, 2001). Rozkład tych sekwencji na chromosomach pokrywa się z częstościa występowania znanych genów R u ryżu. 3. Interesujące jest skupienie dużej liczby RGA zawierających domenę NBS na chromosomie 11 (28% znanych genów odpornościowych ryżu jest na chromosomie 11). „An assessment of the resistance gene analogues of Oryza sativa ssp. japonica – their presence and structure” Koczyk G., Chełkowski J. Cell Mol Biol Lett. 2003; 8(4):963-72

Przyszły kierunek: Szczegółowe badanie chromosomu 11 (duża liczba potencjalnych genów R, interesujące warianty strukturalne) – dla dokładniejszej sekwencji ryżu. Analiza genomu pszenicy przy pomocy znalezionych sekwencji ryżu (ze szczególnym uwzględnieniem sekwencji zawierających NBS) – obecny temat. 3. Uwagi: potrzeba wzięcia pod uwagę szybko zmiennych, olbrzymich ilości danych – klastrów EST (znaczna część danych) analiza sekwencji na poziomie DNA (nie białka) niemożliwe wyszukiwanie pełnych domen (średnia długość EST około 500 nt)

Nucleotide Binding Site – potwierdzone, znane motywy: Najlepsze dopasowanie P-loop VVSIVGFGGLGKTTLAQxVYN Kin-2 KRYLIVIDDVW RNBS-B GSRIIVTTRIxxVAK GLPL CGGLPLAIKTIASLL RNBS-D CFLYLSLFPED

charakterystycznych, zakonserwowanych w ewolucji motywów EST fishing: Selekcja 153 sekwencje zawierające NBS, z chromosomów 11 i 12 Oryza sativa ssp. japonica Ekstrakcja charakterystycznych, zakonserwowanych w ewolucji motywów Przeszukiwanie >560,000 ESTs (etykietek ekspresyjnych) pszenicy.

Poszukiwany kandydat - przykład: gi|20112182|gb|BJ300496.1|BJ300496 LENGTH = 672 COMBINED P-VALUE = 1.62e-26 E-VALUE = 8.1e-21 DIAGRAM: 241_[+1b]_177_[+2b]_158 [+1b] P-loop 2.4e-20 V..V..S..I..V..G..M..G..G..L..G..K..T..T..L..A..Q..Q..V..Y. + + + + + + + + + + + + + + + + + + + T..V..S..I..V..G..F..G..G..M..G..K..T..T..L..A..K..A..V..Y. 226 GAAGCATCCATTGAAGACGGTTTCTATTGTTGGATTTGGTGGGATGGGCAAGACAACTCTTGCCAAAGCAGTGTA obszar potencjalnie zmienny (projektowanie primera) .N.. + .D.. 301 TGACAAGCTCAAAGTGCAATTTGATTGTGGTGCCTTTGTTTCAGTTTCTCAAAATCCCGACATCAAGAAGGTTTT [+2b] Kin-2 6.8e-15 K..R..Y..F..I..V..I..D..D..V..W.. + + + + + + + + + + + K..R..Y..L..I..V..I..D..D..I..W.. 451 GATCGATGAAATCATTGAATTTCTTAATGACAAGAGGTATCTCATCGTAATTGATGATATATGGAATGAAAAATC konserwatywne, dobrze dopasowane wystąpienia motywu podobieństwo do znanych genów odpornościowych

EST fishing: Selekcja 153 sekwencje zawierające NBS, z chromosomów 11 i 12 Oryza sativa ssp. japonica Ekstrakcja charakterystycznych, zakonserwowanych w ewolucji motywów (program MEME) Przeszukiwanie >560’000 ESTs (etykietek ekspresyjnych) pszenicy. Konstrukcja primerów na podstawie rejonów zmiennych pomiędzy konserwatywnymi motywami.

„Transgeneza i genomika roślin uprawnych” Założona pod koniec 2003 roku Sieć Naukowa KBN. Skupia zespoły naukowe z Poznania, Warszawy, Wrocławia, Radzikowa... Poświęcona promocji wyników badań, koordynacji współpracy między ośrodkami członkowskimi, tworzeniu i upowszechnianiu analiz bioinformatycznych. http://www.cropnet.pl

„Transgeneza i genomika roślin uprawnych” http://www.cropnet.pl Klastr obliczeniowy Końcówka Serwer sieciowy/ Serwer baz danych porównywanie sekwencji (BLAST, WU-BLAST, CLUSTAL) wyszukiwanie domen (HMMer, WISE-2.2, PRODIV-TMHMM) wyszukiwanie zakonserwowanych motywów (MAST/MEME) rekonstrukcja filogenezy (PHYLIP, NJTREE) analiza sekwencji (EMBOSS) predykcja struktury drugorzędowej białek (PSIPRED) wyszukiwanie powtórzonych sekwencji (RepeatMasker) Aktualny projekt badawczy: analiza zdarzeń insercji/delecji w genomach Arabidopsis thaliana Col-0 i Ler

Dziękuję za uwagę