Bioinformatyka dyscyplina nauk biologicznych wywodząca się z biotechnologii (genetyki), zajmująca się stosowaniem narzędzi matematycznych i informatycznych do rozwiązywania problemów biologii (głównie biologii molekularnej) i zagadnień biotechnologicznych. Podstawowymi poddziedzinami bioinformatyki są: genomika, proteomika, transkryptomika. in vivo – badania przyżyciowe; mało możliwości manipulacji in situ – w tkance; ograniczone możliwości manipulacji in vitro – w szkle; największe naturalne możliwości manipulacji in silico – w komputerze; możliwość analizowania wszelkich nawet w teoretycznie niemożliwych warunkach Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Historia bioinformatyki 1.X.1990 – Human Genom Project (plan ukończenia 2005) (United States Department of Energy, National Institutes of Health) 1996 – zsekwencjonowanie genomu drożdży (13 milionów par zasad i 6 275 genów) 1997 – zsekwencjonowanie genomu Caenorhabdits elegans (13500 genów) IV-V.1998 – debaty publiczne w Europie; dr Craig Venter i NIH w USA II 2001 – publikacje w Nature i Science http//:www.genom.gov/ Dr Craig Venter Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Biotechnologia a bioinformatyka genetyka biochemia farmakologia biotechnologia DNA RNA białko genomika proteomika CADD bioinformatyka Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Miejsce bioinformatyki w nauce biologia DNA cDNA RNA białko enzym genetyka biochemia genomika transkryptomika proteomika biologia biofizyka biol. molekularna biofizyka mol. biochemia biochemia kwantowa fizyka kwantowa biologia środowiskowa biotechnologia przemiany energetyczne nauki kwantowe bioinformatyka Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Bioinformatyka (dla biotechnologów) produkcja bio-dane gromadzenie przetwarzanie bazy danych narzędzia baz danych genomiczne proteomiczne transkryptomiczne inne... analiza danych symulacje przewidywanie modelowanie 2D 3D rejony kodujące primery wizualizacja molekularne cała wirtualna biologia Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
genomika dziedzina biologii molekularnej i biologii teoretycznej (pokrewna genetyce i ściśle związana z bioinformatyką) zajmująca się analizą genomu organizmów. Głównym celem genomiki jest poznanie sekwencji oraz mapowanie genomu ale również określenie wszelkich zależności i interakcji wewnątrz genomu. W odróżnieniu od genetyki genomika obejmuje ogół zjawisk genetycznych całościowo i przy pomocy biologii teoretycznej (głównie bioinformatyki) stara się określić i opisać wszystkie zależności tych zjawisk oraz wpisać je w ogół procesów metabolicznych żywego organizmu. genomika funkcjonalna (poznanie funkcji wszystkich genów w genomie) genomika strukturalna (poznanie sekwencji i jej wstępny opis) genomika teoretyczna (ogólne prawa rządzące genomami) genomika porównawcza (ewolucja genomów) genomika indywidualnych różnic (zmienność międzyosobnicza genomów tego samego gatunku) Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
proteomika gałąź nauki zajmująca się badaniem białek - ich struktury, sprawowanych przez nie funkcji i zależności między nimi. Proteomika obejmuje analizę całych proteomów (zestaw wszystkich białek w komórce, liniach komórkowych, tkankach lub całych organizmach). Proteomika jest dziedziną znacznie szerszą i bardziej złożoną niż genomika, ponieważ liczba genów kodujących białka jest znacznie mniejsza niż liczba białek w komórce (genów w komórce człowieka jest około 22 tysiące, natomiast białek mniej więcej 400 tysięcy) . (Wikipedia) Białka są polimerami 20 typów monomerów (aminokwasy), DNA – 4 (ATCG) proteomika funkcjonalna (analiza funkcji wszystkich białek w proteomie) proteomika strukturalna (poznanie struktury przestrzennej białek) proteomika teoretyczna (ogólne prawa rządzące proteomem) proteomika porównawcza (ewolucja białek i analiza miejsc zmienności genetycznej) proteomika indywidualnych różnic (zmienność międzyosobnicza proteomów i poszczególnych białek tego samego gatunku) Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Transkryptomika i CADD Transkryptomika - jest to dziedzina, za pomocą której określane jest miejsce i czas aktywności genów poprzez badanie transkryptomu, czyli ogółu cząsteczek mRNA znajdujących się w danym momencie w komórce. CADD - (Computer-Aided Drug Design) komputerowo-wspomagane projektowanie leków Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Gromadzenie danych Cele i powody gromadzenia danych biologicznych Przewaga? fizycznie wszystkie dane znajdują się w jednym miejscu logiczne i uporządkowane gromadzenie danych według zaprojektowanego schematu łatwy dostęp do uporządkowanych i etykietowanych danych cyfrowe formaty danych dają wiele możliwości analitycznych: swobodne przekonwertowywanie między formatami szybka i 100% skuteczna analiza porównawcza dowolnej ilości danych praktycznie brak błędów precyzyjne selekcjonowanie interesujących nas informacji Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Gromadzenie danych Źródła danych Odnośniki do innych baz Laboratoryjne badania analityczne (sekwencje, skany) Szczegółowy opis danych i procesów ich pozyskania Przetworzone dane laboratoryjne (SDS – proteom, NMR - PDB) Dane teoretyczne i hipotezy (SNP, szukanie genetycznej Ewy) Dane porównawcze (drzewa filogenetyczne, zmienności) Symulacje i Modelowanie (dynamika, modele) Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Instytuty gromadzenia danych Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Komputerowa baza danych Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Popularne serwisy biologiczne NCBI – National Center for Biotechnology Information EBI – European Bioinformatics Institute RCSB – Research Collaboratory for Structural Bioinformatics ExPASy – Expert Protein Analysis System Proteomics Server Pfam – Protein family (obecnie pod Sanger Institute) HGP – The Human Genome Project Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Serwis NCBI Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Bazy danych NCBI (od sitemap) Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Bazy danych NCBI Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Serwis EBI Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Bazy danych EBI (index A-Z) Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Bazy danych EBI Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Serwis RCSB Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Bazy danych RCSB Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
rekord/raport bazy PDB Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Serwis ExPASy Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Serwis ExPASy Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Bazy danych ExPASy Bioinformatyka 2007/2008 Biotechnologia UWM wykład 2 Biotechnologia UWM
Pfam Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Wybrane narzędzia NCBI Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Wybrane narzędzia EBI Bioinformatyka 2007/2008 Biotechnologia UWM wykład 2 Biotechnologia UWM
Wybrane narzędzia RCSB PDB !!! narzędzie zewnętrzne !!! Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
wybrane narzędzia ExPASy Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Najważniejsze narzędzia komputer przeglądarka internetowa Entrez FASTA BLAST ClustalW Swiss Model … RasMol Swiss PDB Viewer Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Modele danych Model danych jest to abstrakcyjny model (pojęcie/schemat) opisujący jak dane są reprezentowane i jak mają być używane. Pojęcie MODEL DANYCH generalnie ma dwa znaczenia: A data model theory (teoretyczny) i.e. a formal description of how data may be structured and used. A data model instance (praktyczny ?) i.e. applying a data model theory to create a practical data model instance for some particular application. Model bazy danych zbiór zasad, którymi należy się posługiwać podczas tworzenia bazy danych. W modelu danych określa się reguły, zgodnie z którymi dane umieszcza się w strukturach. Określane są również dozwolone operacje. Definiuje się strukturę danych poprzez specyfikację reprezentacji dozwolonych w modelu obiektów (encji) oraz ich związków. W informatyce głównymi modelami baz danych są: hierarchiczny model danych, relacyjny model danych, grafowy (sieciowy) model danych, obiektowy model danych, sieci semantyczne, Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Formaty plików jpg, gif, psd, bmp, jpeg, tiff …. txt, doc, odt, xls, tex … bat, exe … fasta, pdb, ALN, aln, seq, mmCIF prawie dowolna nazwa pliku Dysk:\sciezka\dostepu\nazwa_pliku.roz rozszerzenie sugerujące jakiego formatu jest to plik i jakiego programu należy użyć aby móc obejrzeć jego zawartość Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM
Dodatkowe ważne pojęcia Dane pierwotne i wtórne Pierwotne i wtórne bazy danych ID oraz accession number Bioinformatyka 2007/2008 wykład 2 Biotechnologia UWM