Co nas interesuje? Czy w danym fragmencie DNA jest jakiś gen? W którym miejscu? Gdzie są introny a gdzie eksony? Gdzie jest promotor?
Strategie poszukiwania genów Metody oparte na składzie Metody oparte na sygnałach Metody porównawcze
Metody oparte na składzie Rozpatrują: używalność poszczególnych kodonów okresowość wystąpienia powtórzeń złożoność składu sekwencji
Metody oparte na sygnałach Rozpatrują występowanie: miejsc sklejania eksonów i wycinania intronów miejsc wiązania czynników transkrypcyjnych miejsc poliadenylacji kodonów START i STOP translacji
Metody porównawcze Potencjalny region kodujący Tłumaczenie na sekwencja białkową Porównanie z bazą danych znanych sekwencji
ORF - open reading frames czyli otwarte ramki odczytu Zaczynają się kodonem START (Met), kończą kodonem STOP i zawierają ciągłą sekwencję kodonów. Zawsze jest 6 możliwości: 3 + 3 dla sekwencji komplementarnej (zawsze od 5’ do 3’) Najdłuższa ramka odczytu z reguły jest prawdziwa (w nie kodujących zazwyczaj znajdzie się po drodze przypadkowy kodon STOP). Dobry sposób predykcji, ale tylko dla sekwencji prokariotycznych - introny zqwieraja zwykle przypadkowe kodony STOP
Mapa ORF dla Pseudomonas aeruginosa: genyamiC i amiR Pseudomonas aeruginosa; Bacteria; Proteobacteria program plotorf (EMBOSS): start=ATG stop=TAA, TAG, TGA
Zjawiska pozwalające ocenić wiarygodność przewidywanych ORF Kodony z sekwencjach kodujących pojawiają się w sposób uporządkowany, a nie całkiem losowy jak w sekwencjach niekodujących. Poszczególne gatunki z różną częstością wykorzystują rożne kodony. Różne geny posiadają często podobne sekwencje.
Statystyka TESTCODE W sekwencjach kodujących obserwuje się tendencje do powtarzania się co trzeciej zasady. Zjawisko niezależne od gatunku! Statystyka TESTCODE odzwierciedla tę tendencje. TESTCODE < 0.74 prawdopodobnie region nie kodujący, > 0.95 prawdopodobnie region kodujący, Inny wynik nie mówi nic o sekwencji.
Program tcode Pseudomonas aeruginosa: geny amiC i amiR
Gatunki różnią się wykorzystaniem kodonów Saccharomyces cerevisiae Homo sapiens LEUCYNA UUC UUA UUG 18% 26% 27% 21% 7% 12%
Program CUSP Kodon Aminokwas Udział CTA L 0.130 CTC L 0.130 CTG L 0.304 CTT L 0.391 TTA L 0.000 TTG L 0.043 Pseudomonas aeruginosa: geny amiC i amiR
Sygnały w genomie E. coli Sekwencje konserwatywne w regionach regulatorowych genu lexA u E. coli konsensus dla miejsca wiązania represora ....CTGGTTTATTGTGCAG............ ........................................................ TTGACA.....TATAAT...................... GGAGG........................................... ......................................................... ATG-otwarta ramka odczytu-TAA .......................................................... region promotora miejsce wiązania rybosomu na mRNA
Sygnały u eukariotów
Analiza dyskryminacyjna Metoda klasyfikacji sekwencji na podstawie dwóch lub więcej statystyk: ocena EPS (exon preference score) - odzwierciedla nielosowość w wykorzystaniu par kodonów z eksonach ocena FSS (3’-flanking splice site score)
Analiza dyskryminacyjna
Hidden Markov Model
Trzy zagadnienia dla HMM Znając parametry modelu (a, b), jakie jest prawdopodobieństwo zajścia sekwencji y? Algorytm forward Znając parametry modelu oraz sekwencje y, jaka jest najbardziej prawdopodobna sekwencja x? Algorytm Viterbiego Znając y, jakie są parametry modelu (a i b)? - algorytm forward-backward
HMM dla E.coli 61 kodonów 3 kodony STOP Sekwencja między genowa ATG
HMM dla kodonu AAG A G koniec A początek = insercja = delecja
Sieć neuronowa
Programy do predykcji genów HMMgene GRAIL - sieć neuronowa MZEF - analiza dyskryminacyjna