Bioinformatyczne bazy danych

Slides:

Advertisements

Podobne prezentacje

WPROWADZENIE dr Jacek Śmietański Instytut Informatyki UJ

Advertisements

„Wielokryterialna optymalizacja pracy systemu wytwarzania o strukturze przepływowej – algorytm memetyczny” Przygotował: Dominik Żelazny, IIAR.

Metody identyfikacji i lokalizacji sekwencji kodujących w genomie

Techniki konstrukcji algorytmów

Wyszukiwarki internetowe

Wyszukiwanie i zapisywanie informacji

Badania operacyjne. Wykład 2

Porównywanie sekwencji

Dr Jan Paweł Jastrzębski

Biologiczne bazy danych

Sortowanie Zajęcia 13.

OPERATORY WYSZUKIWAWCZE

Materiały do zajęć z przedmiotu: Narzędzia i języki programowania Programowanie w języku PASCAL Część 8: Wykorzystanie procedur i funkcji © Jan Kaczmarek.

Promotor: prof. dr hab. Włodzisław Duch

Ulepszenia metody Eigenfaces

Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006

Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006

Podstawy metodologiczne ekonomii

Metody wyszukiwania informacji

Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)

Paweł Kupis Jacek Mańdziuk

Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.

Bioinformatyka dyscyplina nauk biologicznych wywodząca się z biotechnologii (genetyki), zajmująca się stosowaniem narzędzi matematycznych i informatycznych.

Modelowanie, czyli jak to działa?

Google – sposoby wyszukiwania

Bibliografia Geologiczna Polski Baza danych

Układ równań stopnia I z dwoma niewiadomymi

Sposoby wyszukiwania multimediów w Internecie. Standardowe wyszukiwarki odrębna zakładka w formularzu do wyszukiwania, np. Images, Video, Audio, Grafika.

Analiza właściwości białek

Wyszukiwarki internetowe

Strategia skutecznego szukania informacji w Internecie

Hipotezy statystyczne

Przegląd podstawowych algorytmów

Algorytmy i Struktury Danych Typy algorytmów

Elementy Rachunku Prawdopodobieństwa i Statystyki

BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:

Detekcja twarzy w obrazach cyfrowych

Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +

SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA

VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

Aplikacje internetowe

Analiza kluczowych czynników sukcesu

Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +

Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów

Materiał edukacyjny wytworzony w ramach projektu „Scholaris - portal wiedzy dla nauczycieli” współfinansowanego przez Unię Europejską w ramach Europejskiego.

Metoda reprezentacyjna i statystyka małych obszarów z SAS Instytut Statystyki i Demografii SGH dr Dorota Bartosińska Zajęcia 4 Wnioskowanie statystyczne.

Przewidywanie struktury białek

Laboratorium nr.3 Algorytm przyrównania globalnego

drzewa filogenetyczne

Internet jako środowisko informacyjne wykład - studia niestacjonarne

Projekt modułu Nazwa całego projektu Nazwa modułu Imię i Nazwisko Inżynieria Oprogramowania II dzień, godzina rok akademicki W szablonie na niebiesko zamieszczone.

Podstawy i zastosowania bioinformatyki II Marek Kudła.

Projektowanie postaci formularza:

BAZY DANYCH MS Access.

Wyszukiwanie informacji w Internecie Marcin Wojnowski.

Model ekonometryczny Jacek Szanduła.

Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.

Modele nieliniowe sprowadzane do liniowych

Treść dzisiejszego wykładu l Analiza wrażliwości –zmiana wartości współczynników funkcji celu, –zmiana wartości prawych stron ograniczeń. l Podejścia do.

STATYSTYKA – kurs podstawowy wykład 11

Zmienne typy danych w VBA. MS Excel – typy danych w języku programowania VBA.

KOD GENETYCZNY I JEGO CECHY

Co do tej pory robiliśmy:

JAKUB BAREŁKOWSKI REKLAMA W WYSZUKIWARKACH

Reklama w wyszukiwarkach internetowych. Formy reklamy w wyszukiwarkach internetowych ●wyniki organiczne zbudowane na podstawie algorytmu oceniającego.

Reklama w wyszukiwarkach internetowych Jakub Barełkowski.

Selekcja danych Korelacja.

MNK – podejście algebraiczne

SHA1 – Secure Hash Algorithm

Zapis prezentacji:

Bioinformatyczne bazy danych Genomowe Proteomowe Publikacje pierwotne wtórne Jako merytoryczna weryfikacja danych Biologiczne bazy danych przeszukuje się głównie w celu znalezienia: sekwencji nukleotydowych sekwencji białkowych struktur białkowych informacji merytorycznych i publikacji Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Wyszukiwarki popularnych serwisów Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Przeszukiwanie za pomocą słów kluczowych Słowem kluczowym (keyword) może być dowolna fraza (np. hemoglobin) lub numer ID danego rekordu z bazy Fraza, czyli zapytanie do wyszukiwania może mieć złożoną formę w celu precyzyjnego określenia celu poszukiwania w wyszukiwaniu zaawansowanym: (hemoglobin) AND ((human) OR (bovine)) NOT (alpha) Do przeszukiwania konkretnej bazy w NCBI przydatnym narzędziem jest „historia wyszukiwania” Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Historia wyszukiwania w NCBI Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Przeszukiwanie za pomocą odnośników Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Przeszukiwanie na podstawie wprowadzonej sekwencji http://www.ncbi.nlm.nih.gov/blast/producttable.shtml http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

BLAST Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Etapy dopasowywania sekwencji Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Kryteria szacowania podobieństwa sekwencji Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Kryteria szacowania podobieństwa sekwencji Procent identyczności (względny udział odpowiadających sobie pozycji obsadzonych tymi samymi resztami) Długość porównywanych sekwencji (liczba porównywanych pozycji) Rozmieszczenie identycznych pozycji wzdłuż porównywanych sekwencji Typ reszt okupujących pozycje konserwatywne (sekwencje białkowe) Relacje genetyczne/strukturalne między resztami znajdującymi się w odpowiadających sobie nieidentycznych pozycjach (sekwencje białkowe) Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Procedura oszacowania stopnia podobieństwa porównywanych sekwencji Bardzo często oszacowanie stopnia podobieństwa porównywanych sekwencji sprowadzane jest jedynie do określenia względnego udziału pozycji identycznych. Pozostałe kryteria analizy zazwyczaj nie są w ogóle brane pod uwagę (np. bezwzględna długość sekwencji, dystrybucja identycznych pozycji wzdłuż łańcucha). Podejście takie jest niekompletne i stwarza ryzyko błędnej interpretacji otrzymanych wyników. Przedstawiona niżej metoda oparta jest na prawdopodobieństwie przypadkowego pojawienia sie zadeklarowanego stopnia identyczności. Uwzględnia ona podstawowe parametry mające znaczenie dla opisu faktycznego związku między porównywanymi sekwencjami. Liczbę wszystkich możliwych stopni identyczności dla danych dwóch sekwencji opisuje poniższe równanie: Gdzie: x – ilość rodzajów jednostek występujących w sekwencjach (20 dla białek; 4 dla kwasów nukleinowych) n – długość sekwencji (liczba porównywanych par pozycji) a – ilość pozycji identycznych Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Dopasowywanie dwóch sekwencji Alignment, multiple alignment = dopasowanie (wielu) sekwencji Dopasowywanie globalne dopasowanie, którego mechanizm zakłada porównanie całych sekwencji ze sobą Dopasowywanie lokalne dopasowywanie na podstawie podobieństwa oddzielnych rejonów porównywanych sekwencji – ta metoda zakłada modularną strukturę białek i dopuszcza istnienie domen Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Programowanie dynamiczne opiera się na podziale rozwiązywanego problemu na podproblemy względem kilku parametrów. Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Dopasowanie globalne (1970) The Needleman and Wunsch Algorithm Mi,j = Mij + max(Mk,j+1 , Mi+1,I) Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Powstawanie dot-matrix Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Dot-matrix ścieżka i alignment Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

FASTA Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Dot-matrix Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Dlaczego FAST? Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Podobieństwa biochemiczne i biofizyczne aminokwasów Diagram Venn-a Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Macierze substytucji (podstawień) Jak za pomocą liczby określić podobieństwa biochemiczne i biofizyczne poszczególnych aminokwasów tak, aby liczba ta wyrażała jednocześnie realny wpływ na całe białko podstawienia danego aminokwasu innym w łańcuchu polipeptydowym? !!! MACIERZE SUBSTYTUCJI !!! Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

PAM i BLOSUM Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

PAM Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

BLOSUM (62) Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Kara za przerwy (gap costs, gappenalty) Kara za otwarcie przerwy – G Kara za przedłużenie przerwy – L Kara = G + Ln gdzie: n – długość przerwy Standardowo: G = 10 - 15 L = 1 - 2 Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Programowanie dynamiczne – local alignment Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Algorytmy i narzędzia dopasowań lokalnych FASTA (FAST Alignment): Pierwszy program do przeszukiwania baz w celu znalezienia podobnej sekwencji Używa szablonów słów (wielkość słowa) Łączenie słów i prosta algorytmiczna optymalizacja BLAST (Basic Local Alignment Search Tool ) Idea sąsiadujących słów (podobne, nie identyczne słowa) – pozwala stosować słowa o dużych rozmiarach Kilka wersji BLAST-a ClustalW – multiple alignment Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Jak używać BLAST do wyszukiwania sekwencji? Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Jakiego BLAST-a wybrać? Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Formatka BLAST w NCBI Bioinformatyka 2007/2008 Biotechnologia UWM wykład 3 Biotechnologia UWM

BLAST – ustawienia zaawansowane Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Jak używać BLAST do wyszukiwania sekwencji? Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Jak analizować wyniki z BLAST w NCBI Graficzny przegląd wyników Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Jak analizować wyniki z BLAST w NCBI Szczegóły znalezionych dopasowań Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Jak analizować wyniki z BLAST w NCBI Alignmenty czyli zestawienia sekwencji Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

BLAST w EBI Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

ClustalW w EBI Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Analiza wyników ClustalW Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Podstawy genetyczne algorytmów do zestawień aminokwasów? Replacement PAM250 BLOSUM62 Arg/Lys 3 2 Lys/Gln 1 Arg/Gln Lys/Glu Arg/Glu -1 ? Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Algorytm semihomologiczny Diagram of codon genetic relationships Diagram of amino acid genetic relationships Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Dot matrix pairwise alignment Internal homology (gene multiplication) BLAST 2 SEQUENCES SEMIHOM Chicken ovoinhibitor precursor (7 domains) Chicken ovomucoid precursor (3 domains) Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM

Fin Bioinformatyka 2007/2008 wykład 3 Biotechnologia UWM