Metody analizy sekwencji DNA Marta Koczyńska 1/26
Plan seminarium Biologiczne znaczenie DNA Periodyczności w sekwencji DNA Codon usage Codon prototype Modele Markova Periodyczna struktura sekwencji DNA Model AR Podsumowanie i wnioski 2/26
3/26
Kod genetyczny Niejednoznaczny Bezprzecinkowy Niezachodzący Uniwersalny 4/26
ATGAAGGCTTTCATCGTTCTGGTTGCCCTGGCTCTGGCCGCTCCTGCTCTTGG TCGCACCTTGGACCGTTGCTCCCTGGCCCGCGAGATGTCCAACCTGGGCGTT CCTCGTGACCAATTGGCTCGTTGGGCCTGTATTGCCGAGCACGAGTCCTCCTA CCGCACCGGAGTGGTTGGTTAA Przekodowanie 5/26
gdzie f j = j/N ( j = 0,..., N – 1) Jeśli w sekwencji o długości N ma pozycji j występuje określony nukleotyd to x j = 1, w innym przypadku x j = 0 dla j = 0, 1, 2,..., N-1 to widmo sekwencji x u o długości N wyraża się wzorem: Widmo sekwencji DNA 6/26
3 – bp periodicity – w sekwencjach kodujących, (GCT) n Periodyczności w sekwencji DNA 7/26
Periodyczności w sekwencji DNA cd ± 0.01 – bp periodicity alfa helisa 8/26
Periodyczności w sekwencji DNA cd. Inne specyficzne periodyczności 9/26
10/26
gdzie: P i (S) - prawdopodobieństwo że sekwencja S jest kodująca w ramce i, P 0 (S) - prawdopodobieństwo że sekwencja S jest niekodująca. Jeśli LP i (S) > 0 to sekwencja S jest kodująca w ramce i Jeśli LP 0 (S) < 0 to sekwencja S jest niekodująca w ramce i Miara prawdopodobieństwa 11/26
Codon usage Jeśli mamy dana sekwencją S = s 1 s 2 s 3...s n to P i (S) = F(s 1 )F(s 2 )....F(s n ) Zakładamy, że sekwencja niekodująca jest czysto losowa czyli F 0 (s n ) = 1/64 P 0 (s) = n F 0 (s n ) 12/26
Table 1: The human codon usage and codon preference table as published in For each codon, the table displays the frequency of usage of each codon (per thousand) in human coding regions (first column) and the relative frequency of each codon among synonymous codons (second column). The Human Codon Usage Table Gly GGG Arg AGG Trp TGG Arg CGG Gly GGA Arg AGA End TGA Arg CGA Gly GGT Ser AGT Cys TGT Arg CGT Gly GGC Ser AGC Cys TGC Arg CGC Glu GAG Lys AAG End TAG Gln CAG Glu GAA Lys AAA End TAA Gln CAA Asp GAT Asn AAT Tyr TAT His CAT Asp GAC Asn AAC Tyr TAC His CAC Val GTG Met ATG Leu TTG Leu CTG Val GTA Ile ATA Leu TTA Leu CTA Val GTT Ile ATT Phe TTT Leu CTT Val GTC Ile ATC Phe TTC Leu CTC Ala GCG Thr ACG Ser TCG Pro CCG Ala GCA Thr ACA Ser TCA Pro CCA Ala GCT Thr ACT Ser TCT Pro CCT Ala GCC Thr ACC Ser TCC Pro CCC /26
Codon prototype Jeśli f(b,r) jest prawdopodobieństwem nukleotydu b na pozycji r to prawdopodobieństwo kodonu C w sekwencji kodujące wynosi: Dla trójek nukleotydów w niekodującej sekwencji DNA: F 0 (C) = 1/64 Prawdopodobieństwo że sekwencja S jest kodująca wynosi: 14/26
Frequency of the four different nucleotides at the three different codon positions in human coding regions. Derived from Table 1 nucleotidecodon position 123 A C G T /26
Modele Markova W modelach Markova prawdopodobieństwo pojawienia się nukleotydu na danej pozycji zależy od poprzedzających go nukleotydów. W modelu I rzędu prawdopodobieństwo nukleotydu zależy wyłącznie od poprzedzającego nukleotydu. Model ten bazuje na prawdopodobieństwach zależnych od pozycji nukleotydu w kodonie. Dla sekwencji niekodujący F 0 (i,j) = /26
Probabilities of the four nucleotides at the different codon positions conditioned to the nucleotide in the preceding codon position. Estimated from our set of human exon and intron sequences. codon position 1 ACGT A C G T codon position 2 ACGT A C G T codon position 3 ACGT A C G T /26
Values of different coding statistics in the 223 bp long second coding exon of the human -globin gene, and in a 223 bp long sequence from the middle of the second intron of the same gene exon sequence intron sequence coding frame non coding frames frame 1 frame 2 frame3 Codon Usage Codon Prototype Markov Model: order order order /26
Codon usage cd. Values of the model based Coding Statistics along the 2000 bp human -globin gene sequence, computed on an sliding window of length 120 and step /26
Codon prototype cd. Values of the model based Coding Statistics along the 2000 bp human -globin gene sequence, computed on an sliding window of length 120 and step /26
Modele Markowa cd. Values of the model based Coding Statistics along the 2000 bp human -globin gene sequence, computed on an sliding window of length 120 and step /26
Periodyczna struktura w sekwencji DNA Jeśli w danej sekwencji S, możemy zliczyć ile razy nukleotyd i występuje w odległości k od nukleotydu j.. Periodic structure in DNA sequences. The absolute frequency of the pair with (from 0 to 5) nucleotides between the two A's in the 200 first base pairs of the sequences in the set of 1761 human exons and 1753 human introns. A clear period-3 pattern appears in coding regions, which is absent in non-coding regions. Due to the finite size of the sequences (200 bp) the periodic pattern vanishes at longer distances. A similar periodic pattern appears in coding regions for the other fifteen possible pairs of nucleotides 22/26
Model AR (autoregresyjny) 23/26
Model AR cd. 2426
Podsumowanie Przedstawione metody analizy sekwencji DNA pozwalają: rozróżniać sekwencje kodujące od nie kodujący znaleźć nieznane dotąd cechy DNA stwarzają nowe perspektywy na przyszłość 25/26
Dziękuję za uwagę 26/26