„Everything should be made Analogi genów odpornościowych Oryza sativa – ich występowanie i struktura. „Everything should be made as simple, as possible but not simpler." - Albert Einstein Grzegorz Koczyk (2004) http://www.cropnet.pl
Od sekwencji do funkcji - bioinformatyka {A,C,G,T}n Funkcja (np. powielanie informacji genetycznej) {A,R,N,D,C,Q,E,G,H,I,L,K,M,F,P,S,T,W,Y,V}n/3
Homologia Podobieństwo Pokrewieństwo Homologia Homoplazja
Porównywanie sekwencji – czy... ? NIE można bezpośrednio ocenić homologii. Możemy tylko oceniać ją na podstawie podobieństwa.
Porównywanie sekwencji – czy... ? Statystyczna istotność („nieprzypadkowość”) Biologiczna istotność (homologia) P(S>s) E-value = P(S>s) * n Liczba oczekiwanych false positives przy przeszukiwaniu bazy liczącej n sekwencji
Specyficzna odporność „gen-na-gen” Indukowana odpowiedź obronna przeciwko patogenom (reakcja nadwrażliwości) Specyficzna odporność „gen-na-gen” avr R avr R Odbiór – geny R muszą umożliwiać specyficzne wykrycie konkretnego sygnału - obecności patogenu. Produkt translacji mRNA genu R odbiera sygnał – obecność produktu genu avr (czynnik awirulencji). Przekaz - geny R muszą umożliwiać wywołanie konkretnej reakcji komórki – przekaz sygnały n.p. przez aktywację kaskady kinaz.
Geny odpornościowe - struktura: Cf9 Xa21 LRR LRR SA-CC Błona komórkowa SA kinaza CC TIR-NBS-LRR CC-NBS-LRR LRR LRR Pto kinaza NBS NBS TIR CC
Geny odpornościowe – podstawowe domeny: Nucleotide Binding Site LRR Leucine Rich Repeats NBS Coiled coil / leucine zipper kinase Ser/Thr kinase CC TIR Toll / Interleukin Receptor
Ewolucja genów odpornościowych: Ewolucja – geny R muszą być zdolne do efektywnej odpowiedzi na zmieniające się czynniki w postaci produktów genów avr. Ich ewolucja powinna więc być szybka, a efektywne warianty upowszechniać się w genomie. ALE: Studia porównawcze pokazują że ortologi genów R są bardziej zbliżone do siebie nawzajem niż paralogi. Pewne geny R (Pto, RPS2) to zakonserwowane sekwencje starożytnego (w skali wieku genomu) pchodzenia.
Ewolucja genów R - równowaga: Zamiast skupiania się na efektywności pojedyńczych genów Polimorfizm na poziomie populacji Gwałtowne zmiany specyficzności genów R nadal mogą zachodzi na drodze rekombinacji międzyallelicznej. Odmienne warianty genów R obecne w puli to rezerwuar potencjalnej odporności. Indywidualne geny R są nadal zdolne do szybkiej ewolucji i gwałtownych zmian specyficzności.
Poszukiwanie genów odpornościowych in silico (uwagi): Opisy sekwencji w bazach danych są niedokładne. Lepsze kryteria: wysokie podobieństwo do znanych genów R (E-value < 1e-10; unikanie propagowania fałszywych diagnoz) obecność i względne położenie domen charakterystycznych dla genów R (na podstawie przewidywanej sekwencji białkowej) Geny znalezione przez nasze poszukiwania należą do tej samej klasy strukturalnej, niekoniecznie funkcjonalnej co prawdziwe geny odpornościowe. Stąd: RGA (resistance gene analogs)
Poszukiwanie genów odpornościowych in silico (model) Baza danych sekwencji ryżu (TIGR) BLASTP na zdefiniowanym zbiorze sekwencji referencyjnych HMM („odciski palców”) domen znajdowanych w genach odpornościowych Odpytywanie powstałej struktury danych o RGA (analogi genów odpornościowych) poszczególnych klas strukturalnych. Poszukiwanie nowych wariantów.
Narzędzia – BLASTP - wyszukiwanie sekwencji: Możliwości: poszukiwanie podobieństwa pomiędzy sekwencjami w dużych bazach. ocena prawdopodobieństwa przypadkowego wystąpienia dopasowania do zapytania tak dobrego jak znalezione (E-value). Pułapki: wyniki przeszukiwań są tak dobre jak zbiór sekwencji referencyjnych (niewykryte niewielkie homologie, problemy z wszędobylskimi sekwencjami np. kinazami). ocena prawdopodobieństwa bazuje na pewnym modelu tworzenia losowych sekwencji. Ten model nie musi być zawsze prawdziwy. Omijamy tę wadę używając restrykcyjnych E-value (minimalizacja false positives).
Narzędzia - HMM - „odciski palców” domen: Możliwości: poszukiwanie domen w sekwencjach białkowych. Takie „odciski palców” są dostępne w bazach danych np. Pfam. ocena prawdopodobieństwa przypadkowego wystąpienia dopasowania do „odcisku” tak dobrego jak znalezione. Pułapki: HMMy są tworzone na bazie zbioru sekwencji zawierających domenę – wyniki przeszukiwań są tak dobre jak początkowy zbiór treningowy (przykład: roślinna domena TIR). ocena prawdopodobieństwa bazuje na pewnym modelu tworzenia losowych sekwencji. Ten model nie musi być prawdziwy. Omijamy tę wadę używając empirycznie wyznaczonych gathering thresholds.
Sekwencje referencyjne (przeszukiwanie BLASTP): Klasa Gen Patogen Żywiciel ACC TIR-NBS-LRR RPP5 Peronospora parasitica Arabidopsis thaliana AAF08790.1 N Tobacco Mosaic Virus Nicotiana tabacum A54810 L6 Melampsora lini Linum usitatissimum T18546 M AAB47618.1 CC-NBS-LRR RPS2 Pseudomonas syringae p.v. tomato NP 194339.1 RPM1 p.v. maculicola NP 187360.1
Sekwencje referencyjne (przeszukiwanie BLASTP): Klasa Gen Patogen Żywiciel ACC CC-NBS-LRR I2 Fusarium oxysporium t.sp. lycopersicon Lycopersicon esculentum AAD27815.1 Mla1 Erysiphe graminis f.sp. hordei Hordeum vulgare AAG3736.1 NBS-LRR Pi-ta Magnaporthe grisea Oryza sativa AAK00132.1 Pib BAA76281 Xa1 Xanthomonas oryza p.v. oryzae T00020 Pto Pseudomonas syringae p.v. tomato AAF76313.1 Rpg1 Puccinia graminis f.sp. tritici AAM76922.1
Sekwencje referencyjne (przeszukiwanie BLASTP): Klasa Gen Patogen Żywiciel ACC Cf-9 Cladosporium fulvum Lycopersicon pimpinellifolium CAA05274.1 Xa21 FLS2 flagellin receptor Arabidopsis thaliana NP_199445.1 Xanthomonas oryzae p.v. oryzae Oryza sativa T04313 SA-CC RPW8.1 Erysiphe cichoraceum AAK09266.1 RPW8.2 AAK09267.1
Rezultaty przeszukiwania (BLASTP i HMMer): Klasa Liczebność TIR 1 CC-NBS-LRR* 109 CC-NBS * 70 NBS-LRR* 265 NBS* 153 Pto 545 Xa21 369 (304)* Cf9 242(91)* SA-CC * Wliczając białka o fragmentarycznych NBS. ** W nawiasie liczba przypadków w których przewidziano domenę TM w prawidłowej orientacji.
Lokalizacja RGA na chromosomach:
Lokalizacja RGA na chromosomach:
Podsumowanie i uwagi: 1. Z 64574 przewidywanych przez IRGSP genów - około 2,7% (1744 sekwencje) są analogami genów R. 2. Przewidywane 597 sekwencji kodujących białka z domeną NBS, jest bardzo bliskie 600 sekwencjom uzyskanym w pierwotnym szacunku dla „draft sequence” ryżu (IRGSP, 2001). Rozkład tych sekwencji na chromosomach pokrywa się z częstościa występowania znanych genów R u ryżu. 3. Interesujące jest skupienie dużej liczby RGA zawierających domenę NBS na chromosomie 11 (28% znanych genów odpornościowych ryżu jest na chromosomie 11). „An assessment of the resistance gene analogues of Oryza sativa ssp. japonica – their presence and structure” Koczyk G., Chełkowski J. Cell Mol Biol Lett. 2003; 8(4):963-72
Przyszły kierunek: Szczegółowe badanie chromosomu 11 (duża liczba potencjalnych genów R, interesujące warianty strukturalne) – dla dokładniejszej sekwencji ryżu. Analiza genomu pszenicy przy pomocy znalezionych sekwencji ryżu (ze szczególnym uwzględnieniem sekwencji zawierających NBS) – obecny temat. 3. Uwagi: potrzeba wzięcia pod uwagę szybko zmiennych, olbrzymich ilości danych – klastrów EST (znaczna część danych) analiza sekwencji na poziomie DNA (nie białka) niemożliwe wyszukiwanie pełnych domen (średnia długość EST około 500 nt)
Nucleotide Binding Site – potwierdzone, znane motywy: Najlepsze dopasowanie P-loop VVSIVGFGGLGKTTLAQxVYN Kin-2 KRYLIVIDDVW RNBS-B GSRIIVTTRIxxVAK GLPL CGGLPLAIKTIASLL RNBS-D CFLYLSLFPED
charakterystycznych, zakonserwowanych w ewolucji motywów EST fishing: Selekcja 153 sekwencje zawierające NBS, z chromosomów 11 i 12 Oryza sativa ssp. japonica Ekstrakcja charakterystycznych, zakonserwowanych w ewolucji motywów Przeszukiwanie >560,000 ESTs (etykietek ekspresyjnych) pszenicy.
Poszukiwany kandydat - przykład: gi|20112182|gb|BJ300496.1|BJ300496 LENGTH = 672 COMBINED P-VALUE = 1.62e-26 E-VALUE = 8.1e-21 DIAGRAM: 241_[+1b]_177_[+2b]_158 [+1b] P-loop 2.4e-20 V..V..S..I..V..G..M..G..G..L..G..K..T..T..L..A..Q..Q..V..Y. + + + + + + + + + + + + + + + + + + + T..V..S..I..V..G..F..G..G..M..G..K..T..T..L..A..K..A..V..Y. 226 GAAGCATCCATTGAAGACGGTTTCTATTGTTGGATTTGGTGGGATGGGCAAGACAACTCTTGCCAAAGCAGTGTA obszar potencjalnie zmienny (projektowanie primera) .N.. + .D.. 301 TGACAAGCTCAAAGTGCAATTTGATTGTGGTGCCTTTGTTTCAGTTTCTCAAAATCCCGACATCAAGAAGGTTTT [+2b] Kin-2 6.8e-15 K..R..Y..F..I..V..I..D..D..V..W.. + + + + + + + + + + + K..R..Y..L..I..V..I..D..D..I..W.. 451 GATCGATGAAATCATTGAATTTCTTAATGACAAGAGGTATCTCATCGTAATTGATGATATATGGAATGAAAAATC konserwatywne, dobrze dopasowane wystąpienia motywu podobieństwo do znanych genów odpornościowych
EST fishing: Selekcja 153 sekwencje zawierające NBS, z chromosomów 11 i 12 Oryza sativa ssp. japonica Ekstrakcja charakterystycznych, zakonserwowanych w ewolucji motywów (program MEME) Przeszukiwanie >560’000 ESTs (etykietek ekspresyjnych) pszenicy. Konstrukcja primerów na podstawie rejonów zmiennych pomiędzy konserwatywnymi motywami.
„Transgeneza i genomika roślin uprawnych” Założona pod koniec 2003 roku Sieć Naukowa KBN. Skupia zespoły naukowe z Poznania, Warszawy, Wrocławia, Radzikowa... Poświęcona promocji wyników badań, koordynacji współpracy między ośrodkami członkowskimi, tworzeniu i upowszechnianiu analiz bioinformatycznych. http://www.cropnet.pl
„Transgeneza i genomika roślin uprawnych” http://www.cropnet.pl Klastr obliczeniowy Końcówka Serwer sieciowy/ Serwer baz danych porównywanie sekwencji (BLAST, WU-BLAST, CLUSTAL) wyszukiwanie domen (HMMer, WISE-2.2, PRODIV-TMHMM) wyszukiwanie zakonserwowanych motywów (MAST/MEME) rekonstrukcja filogenezy (PHYLIP, NJTREE) analiza sekwencji (EMBOSS) predykcja struktury drugorzędowej białek (PSIPRED) wyszukiwanie powtórzonych sekwencji (RepeatMasker) Aktualny projekt badawczy: analiza zdarzeń insercji/delecji w genomach Arabidopsis thaliana Col-0 i Ler
Dziękuję za uwagę