Podstawy i zastosowania bioinformatyki Marek Kudła
Sekwencje Nukleotydowe Aminokwasowe 4 nukleotydy 4 = 2^2 2 bity informacji Aminokwasowe 20 aminokwasów 2^4 < 20 < 2^5 < 5 bitów informacji Widzimy zatem, że przy translacji zachodzi de facto utrata informacji Kodon – 3 nt = 6 bitów -> aminokwas <5 bitów
Podobieństwo Sekwencje nukleotydowe Sekwencje białkowe Zawartość identycznych pozycji między dwoma sekwencjami - % identyczności Długość porównywanych sekwencji Czy identyczne pozycje są zgrupowane, czy też rozproszone w alignmencie Sekwencje białkowe Wszystkie powyższe, plus: Podobieństwo pod względem właściwości fizykochemicznych lub kodonów, którymi są kodowane Reszty na konserwatywnych pozycjach – przewidzianych domenach, miejscach katalitycznych.
Alignment ATTCAGCT-CCATGC ATTCGGCT-CCA-GC TTTGAGCTTCCATGC Pairwise alignment – ścisłe rozwiązanie możliwe ATTCAGCTCCATGC |||| ||| || || ATTCGGCTACA-GC MSA - multiple sequence alingment ATTCAGCT-CCATGC ATTCGGCT-CCA-GC TTTGAGCTTCCATGC
Macierz podstawień PAM BLOSSUM
Algorytmy tworzenia alignmentów i wyszukiwania sekwencji Needleman-Wuensch `70 Smith-Waterman `70 dotplot BLAST `90 SSAHA BLAT FASTA BLAT on DNA is designed to quickly find sequences of 95% and greater similarity of length 40 bases or more. It may miss more divergent or shorter sequence alignments. It will find perfect sequence matches of 33 bases, and sometimes find them down to 21 bases. BLAT on proteins finds sequences of 80% and greater similarity of length 20 amino acids or more. In practice DNA BLAT works well on primates, and protein blat on land vertebrates. BLAT is not BLAST. DNA BLAT works by keeping an index of the entire genome in memory. The index consists of all non-overlapping 11-mers except for those heavily involved in repeats. The index takes up a bit less than a gigabyte of RAM. The genome itself is not kept in memory, allowing BLAT to deliver high performance on a reasonably priced Linux box. The index is used to find areas of probable homology, which are then loaded into memory for a detailed alignment. Protein BLAT works in a similar manner, except with 4-mers rather than 11-mers. The protein index takes a little more than 2 gigabytes
NEEDLEMAN WUENSCH Nic . : |
Needleman-Wuensch a Smith-Waterman wyjściowo ||||||:|||.||||:||||| Smith-Waterman Alignment lokalny Needleman-Wuensch Alignment globalny ||||||:|||.||||:||||| |..| .| :.:.
BLAST
Dotplots ATTCAGCTCCATGCT ATTCA-GCTCCATGCTCCATGC Sekwencja 2
Sekwencja z domenami powtórzonymi – to samo białko na obu osiach Drosophila melanogaster SLIT
Domeny konserwowane ewolucyjnie Sekwencja na osi horyzontalnej to ludzki antygen powierzchniowy MS2. Sekwencja na osi pionowej to adamalizyna II – metaloproteaza z jadu Crotalus adamanteus. Obie sekwencje posiadają domenę cynkowej proteazy.
Wykrywanie egzonów i intronów Sekwencja na osi horyzontalnej – sekwencja nukleotydowa kalmoduliny z Apergillus nidulans translowana w trzech ramkach odczytu. Na osi pionowej – sekwencja białkowa tegoż białka.
Regiony niskiej złożoności