Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
Podstawy i zastosowania bioinformatyki
Marek Kudła
2
Sekwencje Nukleotydowe Aminokwasowe
4 nukleotydy 4 = 2^ bity informacji Aminokwasowe 20 aminokwasów 2^4 < 20 < 2^5 < 5 bitów informacji Widzimy zatem, że przy translacji zachodzi de facto utrata informacji Kodon – 3 nt = 6 bitów -> aminokwas <5 bitów
3
Podobieństwo Sekwencje nukleotydowe Sekwencje białkowe
Zawartość identycznych pozycji między dwoma sekwencjami - % identyczności Długość porównywanych sekwencji Czy identyczne pozycje są zgrupowane, czy też rozproszone w alignmencie Sekwencje białkowe Wszystkie powyższe, plus: Podobieństwo pod względem właściwości fizykochemicznych lub kodonów, którymi są kodowane Reszty na konserwatywnych pozycjach – przewidzianych domenach, miejscach katalitycznych.
4
Alignment ATTCAGCT-CCATGC ATTCGGCT-CCA-GC TTTGAGCTTCCATGC
Pairwise alignment – ścisłe rozwiązanie możliwe ATTCAGCTCCATGC |||| ||| || || ATTCGGCTACA-GC MSA - multiple sequence alingment ATTCAGCT-CCATGC ATTCGGCT-CCA-GC TTTGAGCTTCCATGC
5
Macierz podstawień PAM BLOSSUM
6
Algorytmy tworzenia alignmentów i wyszukiwania sekwencji
Needleman-Wuensch `70 Smith-Waterman `70 dotplot BLAST `90 SSAHA BLAT FASTA BLAT on DNA is designed to quickly find sequences of 95% and greater similarity of length 40 bases or more. It may miss more divergent or shorter sequence alignments. It will find perfect sequence matches of 33 bases, and sometimes find them down to 21 bases. BLAT on proteins finds sequences of 80% and greater similarity of length 20 amino acids or more. In practice DNA BLAT works well on primates, and protein blat on land vertebrates. BLAT is not BLAST. DNA BLAT works by keeping an index of the entire genome in memory. The index consists of all non-overlapping 11-mers except for those heavily involved in repeats. The index takes up a bit less than a gigabyte of RAM. The genome itself is not kept in memory, allowing BLAT to deliver high performance on a reasonably priced Linux box. The index is used to find areas of probable homology, which are then loaded into memory for a detailed alignment. Protein BLAT works in a similar manner, except with 4-mers rather than 11-mers. The protein index takes a little more than 2 gigabytes
7
NEEDLEMAN WUENSCH Nic : |
8
Needleman-Wuensch a Smith-Waterman
wyjściowo ||||||:|||.||||:||||| Smith-Waterman Alignment lokalny Needleman-Wuensch Alignment globalny ||||||:|||.||||:||||| |..| .| :.:.
9
BLAST
10
Dotplots ATTCAGCTCCATGCT ATTCA-GCTCCATGCTCCATGC Sekwencja 2
11
Sekwencja z domenami powtórzonymi – to samo białko na obu osiach
Drosophila melanogaster SLIT
12
Domeny konserwowane ewolucyjnie
Sekwencja na osi horyzontalnej to ludzki antygen powierzchniowy MS2. Sekwencja na osi pionowej to adamalizyna II – metaloproteaza z jadu Crotalus adamanteus. Obie sekwencje posiadają domenę cynkowej proteazy.
13
Wykrywanie egzonów i intronów
Sekwencja na osi horyzontalnej – sekwencja nukleotydowa kalmoduliny z Apergillus nidulans translowana w trzech ramkach odczytu. Na osi pionowej – sekwencja białkowa tegoż białka.
14
Regiony niskiej złożoności
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.