Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Maciej Szymański PRZEWIDYWANIE STRUKTUR RNA.

Podobne prezentacje


Prezentacja na temat: "Maciej Szymański PRZEWIDYWANIE STRUKTUR RNA."— Zapis prezentacji:

1 Maciej Szymański PRZEWIDYWANIE STRUKTUR RNA

2 1958

3 1970

4 1980s

5 Około 98% sekwencji DNA podlegających transkrypcji w genomach ssaków nie koduje białek 3'-UTR, 5'-UTR introny ncRNA (~50% transkryptów)

6 Transcriptional activity of genomes

7 Transcriptome

8

9 TAR i RRE są strukturami kluczowymi dla propagacji HIV Struktury 3’- i 5’-UTR są odpowiedzialne za regulację translacji niektórych mRNA IRES (internal ribosome entry site) umożliwia inicjację translacji niezależną od rozpoznania 5’-końcowej modyfikacji i udziału białkowych czynników inicjacyjnych Struktury RNA w regulacji ekspresji genów Regulacja potranskrypcyjna Ryboprzełączniki zmieniające strukturę w zależności od warunków regulują ekspresję wielu genów bakteryjnych Regulacja transkrypcyjna

10 U Listeria monocytogenes geny odpowiedzialne za wirulencję kontrolowane są przez aktywator transkrypcji PrfA, którego ekspresja zachodzi w temperaturze 37ºC. W niższych temperaturach 5‘-UTR prfA mRNA tworzy strukturę blokującą sekwencję Shine-Dalgarno uniemożliwiając translację białka PrfA i w konsekwencji transkrypcję genów wirulencji. Mutacje destabilizujące lub stabilizujące proponowaną strukturę drugorzędową prowadzą do odpowiednio obniżenia lub podwyższenia temperatury aktywacji. RNA jako termosensor SD Start

11 U bakterii 5’-UTRy mRNA kodujących białka związane z syntezą i transportem FMN (mononukleotyd flawiny) tworzą struktury drugorzędowe odpowiedzialne za regulację ich ekspresji na poziomie transkrypcji. Związanie FMN do tej struktury powoduje zmianę konformacji i terminację transkrypcji. RNA jako chemosensor

12 RFNflavin mononucleotide riboflavin biosynthesis and transport THIthiamin pyrophosphatethiamin biosynthesis and transport B12adenosylcobalamine cobalamin biosynthesis and transport, other genes S-boxadenosyl methionine methionine biosynthesis and transport G-boxpurinespurine metabolism and transport L-boxlysine lysine biosynthesis, catabolism and transport glmSglucosamine-6-phosphate glucosamine-6-phosphate synthetase (glmS) genes gcvTglycineglycine metabolism Riboswitches

13 Niekodujące RNA DsrA RNA: 87 nt induced in low temperature stimulates expression of RpoS (stress s factor of RNA polymerase) OxyS RNA: 107 nt induced by oxidative stress negative regulator of RpoS, and H-NS (global transcriptional factor)

14 GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGA UUUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA Struktura RNA

15 Zbiór par nukleotydów Sekwencja RNA R o długości n można zapisac jako uporządkowany ciąg rybonukleotydów: R = r 1 ; r 2 ; r 3 ; : : : ; r n, gdzie r i jest i-tym rybonukleotydem. Każdy r i należy do zbioru {A;C; G;U} (bez uwzględnienia modyfikowanych nukleotydów). Struktura drugorzędowa S sekwencji R jest zbiorem uporządkowanych par i.j, 1  i < j  n takich że: 1. j − i > 3 (pętle typu hairpin nie mogą być krótsze niż 3 nukleotydy) 2. jeśli i.j i i’.j’ są dwoma parami zasad: a)i = i’ i j = j’ (i.j oraz i’.j’ są tą samą parą) b)i < j < i’ < j’ (i.j poprzedza i’.j’) c)i < i’ < j’ < j (i.j obejmuje i’.j’). Warunek c) wyklucza pseudowęzły (pseudoknots). Struktura drugorzędowa RNA

16 Pseudowęzły tworzone są gdy dwie pary zasad, i.j i i’.j’ spełniają warunek i < i’ < j < j’ Pseudowęzły nie są uwzględniane w algorytmach przewidywania struktury drugorzędowej ze względu na brak parametrów energetycznych. Są to faktycznie elementy struktury trzeciorzędowej i mogą być znajdowane we wcześniej obliczonych strukturach drugorzędowych lub metodami porównawczej analizy sekwencji. i j’i’ j Pseudowęzły

17 RNaseP RNAGroup I intron

18 Dla pojedynczych łańcuchów RNA maksymalizacja liczby sparowanych nukleotydów minimalizacja energii swobodnej prawdopodobieństwo tworzenia par zasad Dla grup homolgicznych cząsteczek metody porównawcze (kowariacje) metody statystyczne Metody przewidywania struktur drugorzędowych RNA

19 Poszukiwanie optymalnej struktury zawierającej maksymalną liczbę sparowanych nukleotydów Dozwolone są struktury zawierające pętle typu hairpin o dowolnej długości (w rzeczywistości dopuszczalne są pętle przynajmniej 3- nukleotydowe) Możliwe są struktury zawierające izolowane pary zasad (helisy o długości 1-bp) Algorytm Ruth Nussinov (1978)

20 Najprostszą drogą jest poszukiwanie struktury o minimalnej energi z zastosowaniem prostych parametrów enegetycznych przypisanych poszczególnym parom zasad w zależności od siły wiązania (liczby wiązań wodorowych). -1 kcal/MG-U -2 kcal/MA-U -3 kcal/MG-C Energia, E(S) dla całej struktury jest sumą energii poszczególnych par zasad i.j, e(r i,r j ) Algorytmy oparte o minimalizację energii swobodnej Założenie: cząsteczki RNA przyjmują strukturę o najniższej możliwej energii

21 mfold (Zuker & Stadler 1981, Zuker 1989) W programie mfold parametry energetyczne nie są przypisane parom zasad ale pętlom, stanowiącym regiony struktury drugorzędowej ograniczone jedną lub większą liczbą par zasad. Każdą strukturę drugorzędową można przedstawić jako zbiór pętli Pętle zamknięte jedną parą zasad i.j zwane są pętlami typu spinki do włosów (hairpin loop) a ich wielkość j – i – 1  3

22 mfold (Zuker & Stadler 1981, Zuker 1989) Pętle zamknięte dwoma parami zasad i.j i i’.j’ dzielą się na trzy typy: a)stacked pairs jeśli i’ – i – 1 = 0 oraz j – j’ – 1 = 0 b)wybrzuszenie (bulge) jeśli i’ – i – 1 > 0 lub j – j’ – 1 > 0 c)pętla wewnętrzna (interior loop) jeśli i’ – i – 1 > 0 oraz j – j’ – 1 > 0 abc

23 mfold (Zuker & Stadler 1981, Zuker 1989) Pętle zamknięte większą liczbą par zasad zwane są pętlami wielorozgałęzionymi (multibranch loops) Każdą strukturę drugorzędowa można opisać jako zbiór pętli należących do jednego z w/w pięciu typów oraz niesparowanych regionów przy końcach.

24 mfold (Zuker & Stadler 1981, Zuker 1989) mfold generuje zbiór struktur, które ewaluowane są w oparciu o parametry energetyczne (empiryczne i teoretyczne) dla poszczególnych pętli. Wyliczona energia jest sumą energii wszystkich elementów składowych. Stack-3.40External closing pair is G 1-C 14 Stack-1.40External closing pair is C 2-G 13 Stack-1.30External closing pair is G 3-U 12 Stack-2.10External closing pair is A 4-U 11 Helix base pairs Hairpin loop0.20Closing pair is G 5-C 10

25

26 Problemy: Przewidywane struktury o minimalnej energii rzadko odpowiadają strukturom uzyskanym z filogenetycznej porównawczej analizy sekwencji Energie wyliczone dla filogenetycznych struktur tym bardziej odbiegają od przewidywanych wartości minimalnych im dłuższe są analizowane sekwencje Liczba suboptymalnych struktur drugorzędowych jest bardzo duża co nie pozwala (przy obecnych ograniczeniach mocy obliczeniowej) na ewaluacje wszystkich możliwości. Parametry energetyczne nie uwzględniają oddziaływań trzeciorzędowych takich jak niestandardowe pary zasad, pseudowęzły, oddziaływania trójek nukleotydów, któr mogą mieć wpływ na tworzenie struktury drugorzędowej w komórce Długie lańcuchy RNA niekoniecznie muszą przyjmować strukturę o minimalnej energii. Ich konformacja może być wymuszona kinetyką procesu tworzenia stuktury drugorzędowej, co komplikuje obliczenia w stopniu nie pozwalającym na praktyczną implementację.

27 mfold server Pełna wersja programu Zukera dostępna sieciowo poprzez formularz na stronie WWW Obecna wersja pozwala na przewidywanie struktur RNA o długości do 6000 nukleotydów (800 interaktywnie) Wyniki prezentowane są w postaci graficznej (struktury, dot ploty) w różnych formatach Użytkownik ma możliwość zmiany niektórych parametrów programu, co pozwala na poszerzenie lub zawężenie zakresu przewidywanych struktur suboptymalnych

28 mfold server opcje percent suboptimality - wartość procentowa energii optymalnej struktury do której generowane są struktury alternatywne (w praktyce dla długich łańcuchów ograniczona do –12 kcal/M) upper bound number of computed foldings – określa maksymalną dozwoloną liczbę struktur (domyślna wartość 50) window – określa ile i jak zbliżonych (podobnych) do siebie struktur ma być wygenerowane. Niższa wartość powoduje zwiększenie liczby struktur suboptymalnych nieznacznie od siebie róznych. Domyślnie ustawiany jest w zależności od długości sekwencji nt W=0; nt W=1; nt W=2; nt W=3; nt W=5; nt W=7; nt W=8; nt W=10; nt W=11; nt W=12; nt W=15; nt W=20 > 1999 nt W=25

29 maximum interior/bulge loop size – pozwala na ograniczenie wielkości pętli wewnętrznych i wybrzuszeń (domyślnie 30) maximum asymmetry of an interior bulge loop size – dla wybrzuszeń jest to maksymalna ich długość, dla pętli wewnętrznych określa jaka jest dopuszczalna różnica długości ich fragmentów jednoniciowych maximum distance between paired bases – pozwala na ograniczenie wielkości domen zamkniętych jedną parą zasad (domyślnie bez ograniczeń) temperature – dostepna tylko w wersji 2.3, w wersji 3.1 stała - 37°C mfold server opcje

30 Dodatkowe opcje pozwalają na ograniczenie liczby struktur przez wymuszenie parowania lub pozostawienia jako jednoniciowych określonych nukleotydów lub fragmentów sekwencji. Wrunki te wprowadz się w polu constraint information wymusznie parowania odcinka sekwencji F i 0 k gdzie i – pozycja pierwszego nukleotydu; k – długość odcinka F – nukleotydy 7, 8, 9 i 10 muszą być sparowane wymuszanie nieprzerwanego odcinka dwuniciowego F i j k gdzie i oraz j definiują pierwszą parę zasad a k określa ile kolejnych par zasad ma zostać wymuszona F – w strukturach powinien wystąpić region dwuniciowy zawierający pary zasad 5-34, 6-33, 7-32 i 8-31 W podobny sposób definiuje się regiony które mają pozostać jednoniciowe zastępując F na początku definicji P.

31 S. cerevisiae tRNA Phe F F F F

32 RNAfold oblicza prawdopodobieństwo tworzenia par zasad w strukturze drugorzędowej w oparciu o analizę wszystkich możliwych alternatywnych konformacji. Wynikiem nie jest pojedyncza optymalna struktura lecz zbiór wartości prawdopodobieństwa dla poszczególnych par. Dodatkowo (niezależnie) generowana jest struktura o najniższej energii w oparciu o parametry identyczne z tymi wykorzystywanymi przez mfold. Metody probabilistyczne Vienna RNA package

33 RNAfold; S. cerevisiae tRNA Phe

34 GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGG (((((((..(((( )))).((((( ))))) AGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA.....((((( )))))))))))).... Inverse folding: optymalizacja sekwencji wg parametrów energetycznych lub statystycznych do zadanej struktury drugorzędowej Dane wejściowe: struktura druogorzędowa w postaci zapisu nawiasowego (do 100 pozycji) Wynik: optymalna sekwencja przyjmująca zadaną strukturę Sequence design server

35 tRNA GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGA Opt GCGGAUGUAGCUCAGUUGUGAGAGCGCCAGAGAGAUGA tRNA UCUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA Opt UCUGGAAGUACUGUGUUCGAUCCACAGCAUUCGCACCA tRNA GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGA Opt CCGAAGUAUGUCCUCGUAACUGGGCUGGAUAGAACGCA tRNA UCUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA Opt UAUCCCGAAACUGUAACGCUAAUACAGACUUUGGCACA

36 Przewidywanie struktur drugorzędowych zawierających pseudowęzły. Dane wejściowe: pojedyncza sekwencja lub alignment homologicznych sekwencji w formacie FASTA (do 10 kb) Wyniki prezentowane w kilku formatach (m.in. pliki ct, dot ploty) ILM server

37 Dane wejściowe: Alignment 4 bakteryjnych sekwencji 5S rRNA UGCCUGGCGGCCAUAGUGCGGUGGUCCCACCUGACCCCAUGCCGAACUCAGAAGUGAAAC ((((((((((...((( ((((((( ))))..))) ((( ))) GCUGUAGCGCCGAUGGUAGUGUGGGGUCUCCCCAUGUGAGAGUAGGGAACUGCCAGGCAU 120..))) ))))..((((((((...)))))))) )))))) ILM server: 5S rRNA

38 tRNA ILM mfold RNAfold

39 E. coli RydC RNA ILM mfold RNAfold

40 Zakłada się, że RNA pełniące takie same funkcje w wiekszym stopniu zachowują struktury drugorzędowe niż sekwencje. Analiza większej liczby przypadków sprawia, że przewidywania są bliższe rzeczywistości Przewidywanie struktur dla zbiorów homologicznych sekwencji Metody porównawczej analizy sekwencji Metody mieszane z zastosowaniem algorytmów stosowanych dla pojedynczych cząsteczek i analizy porównawczej

41 Zawartość informacyjna dwóch kolumn alignmentu sekwencji RNA opiera się na założeniu, że jeśli dane dwie kolumny i i j są niezależne (nie obejmują nukleotydów tworzących pary zasad) to częstotliwość występowania par nukleotdów N 1,N 2 odpowiednio w pozycjach i i j - f i,j (N 1,N 2 ) odpowiada w przybliżeniu iloczynowi częstotliwości wystepowania N 1 w pozycji i - f i (N 1 ) i częstotliwości wystepowania N 2 w pozycji j - f j (N 2 ). A zatem: Jeśli zmiany w kolumnach są ze sobą związane wartość ta będzie większa od 0. Mutual information

42 Częstotliwości nukleotydów N 1 i N 2 w pozycjach i oraz j Częstotliwość występowania pary N 1,N 2 Mutual information

43 GAAGAGUAUGUCUUC GGAGUGU-UGACUCC GCAGCGUGUGGCUGC GUAGAGUAUGUCUAC GCAGAGU-UGUCUGC ***** kolumny 2 i 14 f 2,14 (A,U) = 0.2 f 2,14 (G,C) = 0.2 f 2,14 (C,G) = 0.4 f 2,14 (U,A) = 0.2 f 2 (A) = 0.2 f 2 (C) = 0.4 f 2 (G) = 0.2 f 2 (U) = 0.2 M 1,15 = 1 x log 2 1 = 0 f 14 (A) = 0.2 f 14 (C) = 0.2 f 14 (G) = 0.4 f 14 (U) = 0.2 kolumny 1 i 15 f 1,15 (G,C) = 1f 1 (G) = 1f 15 (C) = 1 M 2,14 = 0.2 x log x log x log x log 2 5 = 3 x = 1.91

44 Mutual information: 5S rRNA 316 sekwencji 5S rRNA Eukaryota

45 Hofacker A.I. et al. (1998) Automatic detection of conserved RNA structure elements in complete RNA virus genomes. Nucleic Acids Res. 26: Przewidywanie zachowawczych elementów struktury drugorzędowej

46 Hofacker A.I. et al. (1998) Automatic detection of conserved RNA structure elements in complete RNA virus genomes. Nucleic Acids Res. 26: Consensus structures of the HIV-1 RRE (Rev Resposnive Element) region from a sets of 13 and 21 sequences. The main hairpins are present in both predictions; the only difference is hairpin IIa which is supported by a single compensatory base pair in the larger data set. The predictions are consistent with an experimentally supported structure that also contains IIa.

47 Wyniki: struktura kompatybilna z wprowadzonym alignmentem sekwencji, prawdopodobieństwa występowania poszczególnych par zasad w postaci wykresu (dot plot) oraz pliku tekstowego. Przewidywanie pojedynczych struktur, dla grup homologicznych sekwencji, wprowadzanych jako alignment w formacie Clustal. Alifold server

48 11 sequence; length of alignment 122 alifold output % CG:6 GC:1 UG:1 AU:2 UA: % CG:4 GC:1 UG:1 AU:1 UA: % CG:2 GC:2 AU:1 UA: % CG:7 UG:2 AU:1 UA: % CG:3 GC:5 AU: % CG:6 GC:3 UA: % GC:1 AU:1 UA: % CG:2 GC:8 GU: % CG:9 GC:1 UA: % GC:8 GU:1 AU: % CG:4 GC:2 GU:1 UG:2 UA: % CG:3 GC:8 Alifold server: 5S rRNA Alignment 11 sekwencji eukariotycznych 5S rRNA

49

50 Przewidywanie struktur dla grup homologicznych sekwencji RNA z wykorzystaniem kombinacji metod minimalizacji energii, analizy porównawczej i zachowawczości poszczególnych par zasad. Nie wymaga wstępnego generowania alignmentów. Wyniki: pojedyncze struktury dla poszczególnych sekwencji prezentowane w postaci graficznej oraz plików ct. CARNAC

51 CARNAC: 5S rRNA

52 identyfikacja regionów jednoniciowych jako celów dla strategii inaktywacji genów w oparciu o oddziaływania antysensowe (rybozymy, RNAi) identyfikacja możliwych struktur regulatorowych analiza RNA uzyskanych metodami selekcji in vitro Przktyczne aspekty przewidywania struktur drugorzędowych RNA

53 Podsumowanie Nie ma jednej uniwersalnej metody pozwalającej na jednoznaczne określenie struktury drugorzędowej dla każdej sekwencji RNA Najbardziej wiarygodne wynki można uzyskać przy użyciu połączonych metod statystycznych, termodynamicznych i porównawczych z uwzględnieniem danych eksperymentalnych

54

55

56

57

58 Le S.-Y et al. (1988) A program for predicting significant RNA secondary stuctures. Comput. Applic. Biosci. 4: Chen J.-H et al. (1990) A computational procedure for assessing the significance of RNA secondary stucture. Comput. Applic. Biosci. 6: Struktura drugorzędowa jako kryterium identyfikacji nowych niekodujących RNA(1) Problem: wyszukiwanie genów niekodujących RNA w sekwencjach genomowych, nie jest możliwe przy wykorzystaniu algorytmów używanych dla identyfikacji genów kodujących białka (brak silnych sygnałów takich jak ORF, wykorzystanie kodonów etc) Założenie: Sekwencje kodujące strukturalne RNA powinny wykazywać się zdolnością do tworzenia struktur drugorzędowych charakteryzujących się większą stabilnością niż sekwencje przypadkowe o tej samej długości. Sekwencje wyceniane są parametrem (Z-score), który określa o ile odchyleń standardowych energia swobodna (lub inny parametr) dla struktury drugorzędowej danej sekwencji (lub jej fragmentu) różni się od średniej wartości uzyskiwanej dla dużej liczby jej permutacji.

59

60 gen tRNA w otoczeniu sekwencji o identycznym składzie nukleotydowym

61 Rivas E. & Eddy S.R. (2000) Secondary structure alone is generally not statistically significant for the detection of noncoding RNAs. Bioinformatics 16: Znaczący sygnał pozwalający na detekcję genów RNA w kontekście sekwencji genomowych wymaga wartości Z-score ~5 Dla ~98% z 1400 analizowanych sekwencji tRNA Z-score jest niższy od 4 Z 240 genów RNA innych niż tRNA ~30% wykazuje Z-score wyższy od 4

62 Lepsze wyniki uzyskuje się stosując programy, wykorzystujące mniej lub bardziej precyzyjne deskryptory lub definicje struktur drugorzędowych RNA dla przeszukiwania sekwencji genomowych pod kątem sekwencji mogących przyjmować opisaną nimi strukturę. tRNA-scan – tRNA sno-scan – snoRNA


Pobierz ppt "Maciej Szymański PRZEWIDYWANIE STRUKTUR RNA."

Podobne prezentacje


Reklamy Google