Analiza właściwości białek

Slides:



Advertisements
Podobne prezentacje
Funkcje matematyczne Microsoft Office 2003 Exel.
Advertisements

Leszek Smolarek Akademia Morska w Gdyni 2005/2006
Wprowadzenie do narzędzi CAT
WPROWADZENIE dr Jacek Śmietański Instytut Informatyki UJ
Metoda simpleks Simpleks jest uniwersalną metodą rozwiązywania zadań programowania liniowego. Jest to metoda iteracyjnego poprawiania wstępnego rozwiązania.
Bioinformatyczne bazy danych
Bioinformatyczne bazy danych cz. II – Porównywanie i przeszukiwanie
Metody identyfikacji i lokalizacji sekwencji kodujących w genomie
Nowoczesne narzędzia wykorzystywane w cyklu polityk publicznych
Budżetowanie kapitałów
Dobór optymalnej architektury
Porównywanie sekwencji
Dr Jan Paweł Jastrzębski
Biologiczne bazy danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Materiały do zajęć z przedmiotu: Narzędzia i języki programowania Programowanie w języku PASCAL Część 7: Procedury i funkcje © Jan Kaczmarek.
Ulepszenia metody Eigenfaces
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Paradoks partycypacji wyborczej
Zastosowanie programu SYBYL do wygładzania przybliżonych modeli białkowych SEKWENCJA AMINOKWASOWA MODELOWANIE METODĄ DYNAMIKI MONTE CARLO NA TRÓJWYMIAROWEJ.
Wpływ warunków na niewiadome na wyniki wyrównania.
Co nas interesuje? Czy w danym fragmencie DNA jest jakiś gen?
Algorytm Rochio’a.
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)
1.
Animacja Animacja jest procesem automatycznego generowania serii obrazów, gdy kolejny obraz przedstawia pewną zmianę w stosunku do poprzedniego. Ta definicja.
Metoda simpleks opracowanie na podstawie „Metody wspomagające podejmowanie decyzji w zarządzaniu” D. Witkowska, Menadżer Łódź Simpleks jest uniwersalną.
Paweł Kupis Jacek Mańdziuk
Odkrywanie wzorców sekwencji
Odkrywanie wzorców sekwencji
PROTEIN MODEL PLATFORM WEBMOBIS Krzysztof Gapiński Marcin Różański Paweł Ślusarczyk Magdalena Ziębińska Promotor: dr inż. Piotr Łukasiak.
Semafory według normy POSIX
Analiza wariancji.
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
Bioinformatyka II mgr Joanna Kasprzak.
Strategia skutecznego szukania informacji w Internecie
Testy nieparametryczne
Seminarium 2 Krzywe kalibracyjne – rodzaje, wyznaczanie, obliczanie wyników Równanie regresji liniowej Współczynnik korelacji.
Metody obliczeniowe przewidywania interakcji białek z RNA
Elementy Rachunku Prawdopodobieństwa i Statystyki
Komputerowe metody przetwarzania obrazów cyfrowych
na podstawie materiału – test z użyciem komputerowo generowanych prób
Detekcja twarzy w obrazach cyfrowych
Hipotezy statystyczne
Technologie informacyjne EXCEL I
E-pytanie, e-odpowiedź... czyli jakich badań potrzebują biblioteki przyszłości? Dagmara Sawicka Biblioteka Główna Akademia.
Kilka wybranych uzupelnień
ZWIĄZKI MIĘDZY KLASAMI KLASY ABSTRAKCYJNE OGRANICZENIA INTERFEJSY SZABLONY safa Michał Telus.
Podstawy bioinformatyki – sekwencjonowanie nowej generacji
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Seminarium licencjackie Beata Kapuścińska
POLIMERAZY RNA Biorą udział w syntezie RNA na matrycy DNA- transkrypcji Początek i koniec transkrypcji regulują sekwencje DNA i wiążące się do nich białka.
Wyszukiwanie maksimum funkcji za pomocą mrówki Pachycondyla Apicalis.
ZAAWANSOWANA ANALIZA SYGNAŁÓW Nieparametryczne metody analizy częstotliwościowej Marcin Kępara, STI, sem. 09.
Wnioskowanie statystyczne
Wspomaganie Decyzji IV
Przewidywanie struktury białek
Laboratorium nr.3 Algorytm przyrównania globalnego
drzewa filogenetyczne
SubstanCje O znaczeNiu biologIcznym- Białka
Algorytmy Genetyczne Anna Tomkowska Politechnika Koszalińska
Podstawy i zastosowania bioinformatyki II Marek Kudła.
Specjalizowane języki programowania dr inż. Maciej Miłostan.
Istotą kolumn jest przedzielenie strony na kilka części położonych obok siebie. Ilość kolumn jest generowana przez użytkownika, odpowiednio dla jego potrzeb.
Testy nieparametryczne – testy zgodności. Nieparametryczne testy istotności dzielimy na trzy zasadnicze grupy: testy zgodności, testy niezależności oraz.
Wybór nazwy lub słów kluczowych dla interesującego nas szeregu czasowego. Opcjonalnie – ustawienie innych dostępnych atrybutów szukania.
Co do tej pory robiliśmy:
Jednorównaniowy model regresji liniowej
Selekcja danych Korelacja.
KORELACJA WIELOKROTNA I CZĄSTKOWA
Zapis prezentacji:

Analiza właściwości białek Bazy danych, przeszukiwanie , porównywanie sekwencji aminokwasowych.

Bazy danych zawierające sekwencje aminokwasowe białek. SWISS-PROT: powstała w 1986 (A.Bairoch) http://www.expasy.org/sprot/ TrEMBL: powstała w 1996; jest uzupełnieniem SWISS-PROT; dane pochodzą z automatycznych translacji EMBL CDS (« proteomiczna » wersja EMBL) PIR-PSD: Protein Information Resources http://pir.georgetown.edu/ PRF: Protein Research Foundation (Japan): Peptide/Protein Sequence Database (PRF/SEQDB) http://www.prf.or.jp/en/index.html GenPept: tworzona przez analizę uaktualnień GenBank dla regionów translacyjnych. Wiele specjalistycznych białkowych baz danych dla specyficznych rodzin i grup białek. Np. : YPD (yeast proteins), AMSDb (antibacterial peptides), GPCRDB (7 TM receptors), IMGT (immune system) etc.

Bazy danych zawierające dane na poziomie 2D i 3D PDB (Protein Data Bank) SCOP (structural classification of proteins (according to the secondary structures)), BMRB (BioMagResBank; RMN results) DSSP: Database of Secondary Structure Assignments. HSSP: Homology-derived secondary structure of proteins. FSSP: Fold Classification based on Structure-Structure Assignments.

Metody przeszukiwania sekwencyjnych baz danych Entrez – na podstawie informacji na temat genu, nazwy i innych nie sekwencyjnych danych. Fasta, Blast- na podstawie sekwencji nukleotydowej bądź aminokwasowej.

Blast Fasta Fasta3 - przeszukuje białkowe i nukleotydowe bazy danych. Blastp- służy do wstępnego skanowania baz danych zawierających sekwencje aminokwasowe. Fastf3- porównuje różnorodne białka do biłakowych baz danych. Psi-blast – służy do wyszukiwania sekwencji o niskiej homologii. Bardziej czuły niż blastp. Fastx3 – porównuje sekwencje DNA z białkową bazą danych, porównuje odczytaną sekwencje DNA zgodnie z kierunkiem odczytu i odwrotnie. Phi-blast- służy do wyszukiwania sekwencji homologicznych na podstawie podanego wzoru i PSSM. rpsblast- służy do wyszukiwania konserwatywnych domen białkowych.

Format FASTA Format PIR >gi|16766394:1-235 DNA-specific endonuclease I [Salmonella typhimurium LT2] MYRNFSFAAALLAAAFSGQALADGINNFSQAKAASVKVNADAPGSFYCGCQIRWQGKKGVVDLESCGYKVRKNENRARRIEWEHVVPAWQFGHQRQCWQDGGRKNCAKDPVYRKMESDMHNLQPAIGEVNGDRGNFMYSQWNGGEGQYGQCAMKVDFKAKIAEPPARARGAIARIYFYMRDQYQLKLSRQQTQLFNVWDKQYPVTAWECERDARIAKVQGNHNPYVQRACQARKS Format PIR >P1;CRAB_ANAPL ALPHA CRYSTALLIN B CHAIN (ALPHA(B)-CRYSTALLIN). MDITIHNPLI RRPLFSWLAP SRIFDQIFGE HLQESELLPA SPSLSPFLMR SPIFRMPSWL ETGLSEMRLE KDKFSVNLDV KHFSPEELKV KVLGDMVEIH GKHEERQDEH GFIAREFNRK YRIPADVDPL TITSSLSLDG VLTVSAPRKQ SDVPERSIPI TREEKPAIAG AQRK*

Link do bazy danych Sygnatura Match

Score S (raw) a t c - S = Σ (identyczne, „mismatch”) – Σ (przerwy) | Jest to suma wartości substytucji i przerw w danym wyrównaniu S = Σ (identyczne, „mismatch”) – Σ (przerwy) a t c | - „mismatch” Przerwa (gap)

P – value (prawdopodobieństwo) Łaczy wyniki zwracane z danych wyrównań z prawdo-podobieństwem ich wystąpienia. Im mniejsza wartość (bliska równa, zeru) tego parametru tym zaufanie względem prawdziwości danego dopasowania jest większe.

E - Value Liczba wyrównań z danym „score”, która może być spodziewana losowo podczas przeszukiwania danej bazy danych. Jeżeli E = 10 to oznacza to że istnieje szansa na znalezienie tylko 10 takich dopasowań o wysokim (score). Jako wynik zwracane są tylko te dopasowania („matches”) które, są powyżej wartości E. Im mniejsza wartość E tym bardziej rygorystyczna analiza zwracająca tylko kilka wyrównań.

Ustawienie globalne (global aligment) – ustawienie zakładające że sekwencje wejściowe są zasadniczo podobne do siebie na całej swojej długości. Ustawienie polega na próbie porównania ich ze sobą na całej ich długości od końca do końca tak aby znaleść najlepsze wyrównanie (z najwyższym „score” ) Ustawienie lokalne (local aligment) – wyrównanie które, wyszukuje dobrze pasujące do siebie segmenty pomiędzy dwoma sekwencjami. Nie polega ono na próbie porównania całych sekwencji tylko poszukiwaniu regionów o dobrej zgodności zgodnie z wyjściowymi parametrami.

Wyrównanie globalne N’ C’ N’ C’ N’ C’ N’ C’ Przerwy (Gap)

Wyrównanie lokalne N’ C’ N’ C’ N’ C’ N’ C’ N’ C’ N’ C’

Gap extention- określa „koszt” jaki ponosi wyrównanie za obecność w nim kolejnych reszt. Koszt ten zwykle powinien być Mniejszy od „kosztu gap open”. W celu zmniejszenia długości przerwy wystarczy zwiększyć karę. Gap open – określa „koszt” jaki ponosi ustawienie za zainicjowanie przerwy. Gap end – określa „koszt” jaki ponosi ustawienie za zamknięcie przerwy Gap distance – kara za oddzielanie przerw

Niskie wartości dla kar za przerwy powodują zwracanie ustawień z wieloma przerwami i parami aminokwasowymi czy nukleotydowymi, ale ustawienie takie ma mniejsze znaczenie statystyczne w takim przypadku wyrównanie to powinno zostać skonfrontowane ze znaczeniem biologicznym tych podobieństw. Zbyt wysokie wartości kar mogą jednakże powodować brak możliwości znalezienia jakichkolwiek istotnych podobieństw w przypadku porównywania między sobą sekwencji o odległej homologii . Bądź w przypadku ustawień lokalnych odnajdywać pojedyncze regiony.

Znaczenie matryc substytucyjnych Są istotnym elementem każdego doświadczenia w którym istotna jest wiarygodna ocena uzyskanego wyniku w postaci wyrównania sekwencji. Odpowiednio dobrana matryca znacząco wpływa na jakość analizy. Matryce są bezpośrednim odzwierciedleniem teorii ewolucji Zrozumienie ich właściwości znacznie ułatwia dobór matrycy i zwiększa powodzenie w prowadzeniu badań

BLOSUM – Block substitution matrix Konstruowana jest na podstawie konserwatywnych regionów występujących w zespole ustawień bez możliwości wystąpienia w nich przerw. Opiera się na wyrównaniach lokalnych. W odróżnieniu od PAM matryca BLOSUM obliczana jest na podstawie grup ustawień sekwencji, w których nie wszystkie mutacje są obliczane tak samo (nie są równoznaczne) Matryca ta jest najlepsza do wykrywania lokalnych wyrównań. Blosum 62 jest najlepsza do wykrywania słabych podobieństw pomiędzy białkami. Blosum 45 jest najlepsza do wykrywania długich i słabych wyrównań

PAM – Point aminoacid mutation Bazują na globalnych ustawieniach blisko spokrewnionych ze sobą białek ( w skład ustawień wchodziły także regiony o niskiej homologii) Wszystkie matryce tej rodziny wywodzą się z matrycy PAM1 wyznaczonej na podstawie wyrównań różniących się od siebie na poziomie 1% (99% identyczności) Matryce o dużych wartościach (PAM 250) są bardziej przydatne Do przeszukiwania baz danych niż porównywania sekwencji. Matryce o niskiej wartości są bardziej czułe i pozwalają na właściwą ocenę wyrównania pomiędzy sekwencjami blisko spokrewnionych ze sobą białek

PAM 250 A R N D C Q E G 2 -2 6 -1 4 -4 -5 12 1 3 -3 5

BLOSUM 45 BLOSUM 62 BLOSUM 90 PDOBIEŃSTWO 100 PAM 250 PAM 160 PAM 100

Needle – lokalne wyrównanie Water - globalne wyrównanie Metody porównywania dwóch sekwencji między sobą Blast 2 sequences – lokalne wyrównanie podobnie jak w klasycznym BLAST (http://www.ncbi.nlm.nih.gov/blast/bl2seq/bl2.html) EMBOSS PAA - Needle – lokalne wyrównanie  Water - globalne wyrównanie

Metody porównywania więcej niż dwóch sekwencji ClustalW- bazuje na ustawieniach globalnych bądź semi-globalnych. Buduje ustawienia wielokrotne progresywnie z serii wyrównań podwójnych, według rozgałęzień na wyjściowym „guide tree” Ustawia wyrównania od najbardziej podobnych (bedących najbliżej na „guide tree”) do bardziej odległych. Przerwy powstałe na początku generowania wyrównań nie ulęgają zmianie. (automatycznie nie są poprawiane) T-COFFEE- kombinacja ustawień lokalnych i globalnych (ClustalW, Lalgin) używa bibliotek ustawień lokalnych i globalnych. Bardziej dokładne ustawienia pomiędzy sekwencjami o niskiej homologii

Metody konstruowania wyrównań wielokrotnych

ClustalW etapy (1) S2 S1 S4 S2 S3 S1 S4 S3 Porównywanie sekwencji międzysobą (6 kombinacji) Obliczanie dystansu i tworzenie guide tree.

ClustalW(2) Wyrównanie pomiędzy najbardziej podobnymi sekwencjami S2 S4 S2 S4 Wprowadzenie przerw dla optymalizacji wyrównania S1 S3 S1 S3 Generowanie ustawienia wielokrotnego z wprowadzeniem nowych przerw bez możliwości zmiany przerw z ustawień pomiędzy dwoma sekwencjami (etap wcześniej) Wrównanie pomiędzy kolejnymi sekwencjami według guide tree

The Best Alignment Method: •Your Brain •The Right Data „Conclusion The Best Alignment Method: •Your Brain •The Right Data The Best Evaluation: •Your Eyes •Experimental Information (SwissProt)” „Bioinformatics course 2001” http://www.ch.embnet.org/CoursEMBnet/Pages01/Material.html