Bioinformatyczne bazy danych cz. I

Slides:

Advertisements

Podobne prezentacje

Wyszukiwanie Publikacji Cytowanej – Cited Reference Search na Web of Science.

Advertisements

INSTRUKCJA KORZYSTANIA Z KATALOGU ON-LINE

Indeksy w bazie danych Oracle

LISA jako źródło informacji bibliograficznej

Wyszukiwanie cytowań w Web of Science

WPROWADZENIE dr Jacek Śmietański Instytut Informatyki UJ

Procedury wyzwalane Procedura wyzwalana (ang. trigger) - stanowi kod użytkownika przechowywany wewnątrz bazy i uruchamiany w określonych sytuacjach np.

Gambit Centrum Oprogramowania i Szkoleń Sp. z o.o Kraków, al.Pokoju 29B/ Autoryzowany dystrybutor Thomson-Reuters.

Bioinformatyczne bazy danych

INDEKSY I SORTOWANIE ZEWNĘTRZNE

SQL INJECTION Wykorzystanie błędów w językach skryptowych

Bazy danych II Instrukcja SELECT Piotr Górczyński 25/08/2001.

Support.ebsco.com Wyszukiwanie w bazie Business Source w EBSCOhost Przewodnik.

Komponenty bazy danych Baza danych Jest to uporządkowany zbiór powiązanych ze sobą danych charakterystycznych dla pewnej klasy obiektów lub zdarzeń,

WPROWADZENIE DO BAZ DANYCH

Biologiczne bazy danych

MS Access 2003 Kwerendy Paweł Górczyński.

MS Access 2000 Normalizacja Paweł Górczyński 2005.

Budowa i funkcje elektronicznego katalogu biblioteki szkolnej

Support.ebsco.com EBSCOhost Wyszukiwanie złożone (z wieloma frazami) Szkolenie.

Support.ebsco.com EBSCOhost Wyszukiwanie podstawowe dla Bibliotek akademickich Szkolenie.

Bibliograficzne bazy danych

Rekordy 1 Definicja Typ strukturalny nazywamy typem rekordowym, jeżeli zawiera pewną liczbę nazwanych składowych, które mogą być różnych typów. Dostęp.

BD-LAB6 Wojciech Pieprzyca

Modele baz danych - spojrzenie na poziom fizyczny

Język SQL (Structured Query Language) DDL (Data Definition Language)

Bibliografia Geologiczna Polski Baza danych

Teoria relacyjnych baz danych

Bazy Danych II prowadzący: mgr inż. Leszek Siwik

Strategia skutecznego szukania informacji w Internecie

Arkusze kalkulacyjne, część 3

Temat 19: Organizacja informacji w bazie danych – część 2.

BIBLIOTEKA WYŻSZEJ SZKOŁY ADMINISTRACJI I BIZNESU INSTRUKCJA KORZYSTANIA Z KATALOGU ON-LINE.

Podstawy programowania

ANNA BANIEWSKA SYLWIA FILUŚ

Agenda Co to jest Scopus ? Author Identifier SCOPUS i scientometria.

Bazy danych podstawowe pojęcia

Temat 19: Organizacja informacji w bazie danych – część 1.

SQL - Structured Query Language

JAK SZUKAĆ W KATALOGU KOMPUTEROWYM?

Wybrane zagadnienia relacyjnych baz danych

WPROWADZENIE DO BAZ DANYCH

Komendy SQL do pracy z tabelami i bazami

MICROSOFT Access TWORZENIE MAKR

Podstawowe informacje

System plików.

ZASADY KORZYSTANIA Z KATALOGU BIBLIOTECZNEGO

Powtórzenie wyk ł adu 10 Fizyczna organizacja danych w bazie danych. Indeksy.

Komendy SQL do pracy z danymi

Projektowanie postaci formularza:

TEMAT: ACCESS - KWERENDY.

EBSCOhost Collection Manager Konto osoby proponującej książki do zakupu Przewodnik support.ebsco.com.

Przewodnik Wprowadzenie do

BAZY DANYCH Microsoft Access Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i.

Przewodnik Bazy Business Source Wyszukiwanie podstawowe

Bazy Business Source Wyszukiwanie zaawansowane Przewodnik

Filtrowanie, Funkcje bazodanowe

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Moduł ECDL-AM5 Bazy danych, poziom zaawansowany Tabele, relacje.

Wyszukiwanie cytowanych pozycji bibliograficznych „Cited Reference Search” DR KLEMENTYNA KARLIŃSKA-BATRES WEB OF SCIENCE.

Temat: Tworzenie bazy danych

SZKOLENIE KATALOG BIBLIOTECZNY

T. 18. E Proces DGA - Działania (operatorka).

SZKOLENIE KATALOG BIBLIOTECZNY

Poradnik: Polska Bibliografia Lekarska - Jak szukać literatury na wybrany temat w Bibliotece i Centrum Informacji Naukowej PMWSZ w Opolu.

SZKOLENIE KATALOG BIBLIOTECZNY

SZKOLENIE KATALOG BIBLIOTECZNY

Modele baz danych - spojrzenie na poziom fizyczny

Zapis prezentacji:

Bioinformatyczne bazy danych cz. I Grzegorz Koczyk © 2003

Bazy danych informacji biologicznej Zoorganizowane zbiory dużych ilości danych biologicznych. Z reguły połączone z oprogramowaniem do manipulacji tymi danymi: przeszukiwania odzyskiwania dołączania Cechy dobrej bazy danych Łatwy dostęp Możliwość precyzyjnego uzyskiwania pożądanych informacji

Bazy danych informacji biologicznej Bioinformatyczne bazy danych Primary zautomatyzowane zbieranie rekordów bezpośrednio z badań NCBI, DDBJ, EMBL Secondary poświęcone konkretnemu organizmowi (TAIR) lub danym (UniGene, dbSNP) tworzone automatycznie (NCBI UniGene) lub nadzorowane (NCBI RefSeq)

„Jeden wpis, jeden plik” – FASTA Pojedyńczy plik reprezentuje pojedyńczą sekwencję. Przykład: FASTA Accession.Version >gi|37993870|gb|CF805616.1|CF805616 TaRGA.C2 [...] ACAATTGGTTTATGCCCATGAGGAGAAAGACAAGAAAGACAACAAGGAAGGTCACTTCGACCTGGTTATGTGGGTCCATGTCTCTCAGAGTTTTAGTGTGGGCGACATCTTCAAGGAGTTGTATGAGGCAGCTTCAGAGCCTAAGGTTGCATGCCCTCAATTTCATAACCTGAATGCCTTGGAAAAGGAATTGGAGAGGAAACTAGATGGAAAAAGATTCCTTCTAGTACTAGATGATGTCTGGTGCAACAAGGATGTCGGTAACGAGGAGCTACCAAAGTTACTTACTCCACTGAAGAAAGGAAAGAGAGGAAGCAAGATCCTAGTGACAACTCGAAGTAAATTTCCATTGTCGGATCAAGGTCCCGGTGTGCGGCATACTGCAATGCCAATAAATGAGGTTAATGATACTGCCTTCTTCGAGCTATTCATGCACTATGCCCTCGAAGAAGGCCAAGACTGGAGCCTGTTCAAGACCATTGGTGAGGAGATTGCAGAAAAGCTG Numer GI

Struktura przechowywanych danych Baza danych KLUCZ unikalny identyfikator Rekord bazy danych (sekwencja, publikacja) Rekord = Wpis Adnotacje (geny, nazwiska autorów) Pole = Adnotacja podtyp POWIĄZANIE (niekoniecznie z wpisem tej samej bazy) Adnotacje (geny, nazwiska autorów) Kolejne poziomy adnotacji ....

„Jeden wpis, jeden plik” – model „flat file” Pojedyńczy plik reprezentuje pojedyńczy wpis (np. sekwencję). Przykład: GenBank Flat File Format LOCUS NC_000932 154478 bp DNA circular PLN 06-AUG-2003 DEFINITION Arabidopsis thaliana chloroplast, complete genome. ACCESSION NC_000932 VERSION NC_000932.1 GI:7525012 KEYWORDS . SOURCE chloroplast Arabidopsis thaliana (thale cress) ORGANISM Arabidopsis thaliana Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; rosids; eurosids II; Brassicales; Brassicaceae; Arabidopsis. REFERENCE 1 (sites) AUTHORS Sato,S., Nakamura,Y., Kaneko,T., Asamizu,E. and Tabata,S. TITLE Complete structure of the chloroplast genome of Arabidopsis thaliana JOURNAL DNA Res. 6 (5), 283-290 (1999) MEDLINE 20039611 PUBMED 10574454 FEATURES Location/Qualifiers source 1..154478 /organism="Arabidopsis thaliana" /organelle="plastid:chloroplast" /mol_type="genomic DNA" /cultivar="Columbia" /db_xref="taxon:3702" Accession.Version Identyfikator GenBank Powiązanie z bazą PubMed Powiązanie z wpisem taksonu

„Jeden wpis, jeden plik” – model „flat file” FEATURES Location/Qualifiers source 1..154478 /organism="Arabidopsis thaliana" /organelle="plastid:chloroplast" /mol_type="genomic DNA" /cultivar="Columbia" /db_xref="taxon:3702" gene complement(join(97999..154478,1..69724)) /locus_tag="ArthCp001" CDS complement(join(97999..98024,98562..98793,69611..69724)) /codon_start=1 /transl_table=11 /product="ribosomal protein S12" /protein_id="NP_051037.1" /db_xref="GI:7525080" /translation="MPTIKQLIRNTRQPIRNVTKSPALRGCPQRRGTCTRVYTITPKK PNSALRKVARVRLTSGFEITAYIPGIGHNLQEHSVVLVRGGRVKDLPGVRYHIVRGTL DAVGVKDRQQGRSKYGVKKPK„ ............................................................................... BASE COUNT 48546 a 28496 c 27570 g 49866 t ORIGIN 1 atgggcgaac gacgggaatt gaacccgcga tggtgaattc acaatccact gccttaatcc 61 acttggctac atccgcccct acgctactat ctattctttt ttgtattgtc taaaaaaaaa 121 aaaaaataca aatttcaata aaaaataaaa aaaggtagca aattccacct tatttttttt 181 ctaataaaaa atatatagta attttttatt atttattatt attatttatt attaatataa 241 taaataaagt aaaatatgat actctataaa aatttgctca tttttataga aaaaaacgag Adnotacja (feature) Adnotacja niższego poziomu (qualifier) Adnotacja (base count) Sekwencja

Wady modelu„flat file” brak możliwości ograniczenia zapytania do pewnych pól (bez przeglądania całych plików) powolne zapytania, powolne dołączanie nowych wpisów (ponownie konieczność przeglądania całych plików) jednoczesność (co będzie jak kilka osób zmodyfikuje jednocześnie ten sam wpis) spójność (jak sprawdzać czy wprowadzane wartości są prawidłowe – np. czy powiązania wskazują na istniejące zapisy)

Indeksowanie identyfikator #1 Arabidopsis thaliana Triticum aestivum Hordeum vulgare identyfikator #3 Mus musculus Canis lupus Indeks umożliwia dotarcie do kluczy wpisów zawierających żądaną adnotację / słowo kluczowe (tu: nazwę taksonu) – bez przeszukiwania całej bazy. Xenopus laevis Homo sapiens

NCBI Entrez – system naczyń połączonych http:://www.ncbi.nlm.nih.gov/entrez Zintegrowany system dostępu do informacji (sekwencje, struktury, literatura...)

Powiązania, a sąsiedztwo Powiązania to statyczny, zakodowany we wpisie związek pomiędzy nim a innymi wpisami (w tej samej bazie lub innych). Sąsiedztwo to dynamiczny związek pomiędzy wpisem, a podobnymi do niego wpisami. Przykłady sąsiedztw: - podobne sekwencje (BLAST) - podobne struktury (VAST) - podobne artykuły (word weighting)

NCBI Entrez – system naczyń połączonych Word weight PubMed abstracts Phylogeny Taxonomy 3 -D Structure 3-D Structure VAST Genomes Nucleotide sequences Protein sequences BLAST BLAST

(domyślnie zapytanie odnosi się do wszystkich zindeksowanych pól) Zapytania w Entrez Pojedyńcze zapytanie tworzy się dodając do słowa kluczowego informację do jakiego zindeksowanego pola ma się odnosić. wheat [Organism] wheat (domyślnie zapytanie odnosi się do wszystkich zindeksowanych pól) W przypadku zapytania o liczby lub daty, zakres podaje się oddzielając wartości „:”. 1980/01/01:2000/01/01[Publication Date]

Zapytania w Entrez - spójniki wheat [Organism] AND (Feuillet [Author] OR Keller[Author]) NOT 1980/01/01:2000/01/01[Publication Date] Poszczególne zapytania cząstkowe łączone są przy pomocy spójników (operatorów logicznych) AND obydwa warunki muszą być spełnione (spójnik domyślny) OR przynajmniej jeden z warunków musi być spełniony NOT dany warunek nie ma być spełniony (interpretowane jako AND NOT)

Zapytania w Entrez - nawiasy wheat [Organism] AND (Feuillet [Author] OR Keller[Author]) NOT 1980/01/01:2000:/01/01[Publication Date] a to już coś innego: wheat [Organism] AND Feuillet [Author] OR Keller[Author] NOT 1980/01/01:2000:/01/01[Publication Date] zapytania interpretowane są od lewej do prawej wszystkie spójniki są równej wagi (nie ma pierwszeństwa) nawiasy powodują traktowanie zawartości jako odrębnego zapytania

Zapytania w Entrez – ciągi wyrażeń „Triticum aestivum” [Organism] Ciąg słów jest interpretowany, jako całość tylko jeśli stanowi poprawną wartość w indeksie. W innym wypadku, cudzysłowy NIE WYMUSZAJĄ interpretowania ciągu jako całości ! 121212 233448 324438 Zapytanie w postaci ciągu liczb (tylko i wyłącznie liczb) jest interpretowane jako lista unikalnych identyfikatorów wpisów, połączona spójnikiem OR. Wszystkie wpisy o podanych identyfikatorach zostaną odzyskane z bazy !

Dane literaturowe - PubMed Streszczenia i cytacje z ponad 4500 periodyków Większość wpisów pochodzi z anglojęzycznych źródeł lub posiada angielskie streszczenia.

Dane literaturowe - Books www.ncbi.nlm.nih.gov/books około 30 tytułów, gł. tematyka biomedyczna między innymi: „Molecular Biology of the Cell” „Molecular Cell Biology” „Introduction to Genetic Analysis” „Genomes”

Dane literaturowe – PubMed Central www.pubmedcentral.nih.gov archiwum artykułów, dostępnych bez opłaty ponad 50 periodyków (+47 pozycji BioMed Central), w tym: Plant Cell Plant Physiology PNAS Nucleic Acids Research

PubMed - zapytania Pierwotnie słowa nieokreślone co do pola są sprawdzane względem trzech indeksów: Terminów biomedycznych z MeSH (słownik hierarchiczny = same terminy i słowa oznaczające ich synonimy oraz podkategorie) Nazw znanych periodyków np. („New England Journal of Medicine”) odpowiada skrótowi „N Engl J Med” Autorów - o ile zapisany ciąg pasuje do formatu: <nazwisko> <inicjały> (np. Crick F)

PubMed – znaleźć artykuł [TI] Article Title [DP] Publication Date [TA] Journal Title [VI] Volume [UID] Unique Identifier [IP] Issue [PG] Pagination

PubMed – znaleźć autora Author [AD] Affiliation PubMed – znaleźć słowo [TI] Title [AB] Abstract [TIAB] Title/ Abstract [TW] Text Word

Narzędzia pomocnicze Limits (ograniczenia) pozwala ograniczyć przeszukiwanie do określonego(zindeksowanego) pola Preview/Index (podgląd) pozwala przejrzeć zindeksowane pola i ich możliwe wartości History przechowuje poprzednie rezultaty – można się do nich odwoływać Clipboard (schowek) pozwala przeglądać zachowane cytacje Details pozwala przejrzeć szczegóły zapytania i wynikłe błędy

Powiązania z innymi wpisami Powiązania z wpisami innych baz, oraz powiązania zewnętrzne (LinkOut) Poszukiwanie pokrewnych artykułów (ważenie słów kluczowych = word weighting)

PubMed - Limits Ograniczenie do typu publikacji, np. Journal Ograniczenie zapytania do wybranego pola Data publikacji

PubMed – Preview/Index Wstępnie przetwarza zapytanie (pokazuje ilość znalezionych wpisów) Wyświetla kolejną partię możliwych wartości pola

Można używać dawnych zapytań, jako terminów PubMed - History Można używać dawnych zapytań, jako terminów

PubMed - Details Modyfikacja zapytania, widoczne końcowe łączenie terminów Modyfikacje wprowadzone przez Entrez

PubMed - Clipboard Możliwości: Text, File, Clipboard

Dane sekwencji - bazy Początkowy format baz danych był formatem flat-file. Równolegle funkcjonowało kilka inicjatyw. EMBL DDBJ GenBank SRS Entrez getentry

GenBank – pierwotna baza danych NCBI pełne uaktualnienia co dwa miesiące uaktualnienia przyrostowe codziennie obecnie dostępna tylko przez Internet ftp://ncbi.nlm.nih.gov

Ograniczenie do określonego typu cząsteczki (np. rRNA) Nucleotide - Limits Sposób pokazywania wpisów „składanych” Ograniczenie do określonego typu cząsteczki (np. rRNA) Ograniczenie do określonej bazy danych np. sekwencji referencyjnych RefSeq

Protein – Limits Wybór lokalizacji (jądro, organelle)

Zbiorcze zapytania (Batch Entrez)

Zapytania w bazach sekwencji - pola Skrót Pełna nazwa Opis [ACCN] Accession unikalny kod Accession przyporządkowany rekordowi [ALL] All wszystkie terminy znajdujące się w dowolnym polu bazy [AUTH] Author autorzy powiązanych publikacji [ECNO] EC/ RN Number numery klasyfikacji enzymów (EC lub CAS) [FKEY] Feature Key adnotowane na wpisach sekwencji „features” [FILT] Filter przefiltrowane podzbiory danej bazy

Zapytania w bazach sekwencji - pola Skrót Pełna nazwa Opis [GENE] Gene Name standardowe/potoczne nazwy genów w bazie [ISS] Issue numer periodyku w którym opublikowano dane [JOUR] Journal nazwa (skrócona) lub ISSN periodyku [KYWD] Keyword słowa kluczowe ze słowników GenBanku, EMBL, DDBJ, SWISS-Prot, PIR, PRF lub PDB. [MDAT] Modification Date daty ostatniej modyfikacji rekordów (YYYY/MM/DD)

Zapytania w bazach sekwencji - pola Skrót Pełna nazwa Opis [MOLWT] Molecular Weight waga białka (pole 6-cyfrowe, uzupełniane zerami) [ORGN] Organism nazwa taksonu do którego odnosi się wpis [PAGE] Page numery pierwszych stron powiązanych publikacji [PROP] Properties własności sekwencji białkowej lub nukleotydowej (typ molekuły, pododdział GenBanku itp.) [PROT] Protein Name nazwy białek zawartych w bazie

Zapytania w bazach sekwencji - pola Skrót Pełna nazwa Opis [PDAT] Publication Date daty powiązanych publikacji w formacie YYYY/MM/DD [SQID] SeqID String unikalne identyfikatory wszystkich wpisów [SLEN] Length długość sekwencji [SUBS] Substance Name nazwy substancji powiązanej z wpisem (rejestr CAS lub nazwa MEDLINE) [TITL] Title word słowa znalezione w liniach definicji rekordów (organizm, nazwa genu/produktu, symbol genu, typ molekuły...)

Zapytania w bazach sekwencji - pola Skrót Pełna nazwa Opis [UID] Uid unikalne identyfikatory publikacji powiązanych z wpisami [WORD] Text word dowolne zindeksowane słowo w opisie wpisu [VOL] Volume tomy periodyków związane z wpisami bazy

Bazy sekwencji – poznać wpis po artykule [JOUR] Journal Name [PDAT] Publication Date [AUTH] Author [VOL] Volume [UID] Unique Identifier [ISS] Issue [PAGE] Page

Bazy sekwencji –poznać wpis po opisie [TITL] Title (słowa w definicji rekordu) [SLEN] Sequence Length [MDAT] Modification Date [MOLWT] Molecular Weight (rekordy białek) [WORD] Text Word (dowolne słowo w opisie rekordu) [GENE] Gene [ECNO] EC/RN Number (rekordy białek) [ACC] Accession [PROT] Protein

GenBank divisions – gbdiv_XXX [PROPS] Tradycyjne (pseudo-taksonomiczne): BCT (bacteria) INV (invertebrate) MAM (other mammals) PHG (phages) PLN (plants, fungi, algae) PRI (primate) ROD (rodents) SYN (synthetic) UNA (unannotated) VRL (viral) VRT (other vertebrate) Podział ze względu na naturę sekwencji: PAT Patent EST Expressed Sequence Tags STS Sequence Tagged Sites GSS Genome Survey Sequences HTG High Throughput Genome HTC High Throughput cDNA CON Contig

Kilka uwag – Protein & Nucleotide - poszukiwanie „synonimów” (sekwencji identycznych) – BLAST bez maskowania - rekordy powiązane PDB i SWISSPROT nie są oryginalnymi rekordami i należy je dodatkowo sprawdzić w bazach macierzystych http://mia.sdsc.edu Molecular Information Agent (masowe przeszukiwanie >50 baz) Sekwencje genomowe ciąg nieznanych nukleotydów N dłuższy niż 100 wskazuje w rzeczywistości na przerwę nieznanej długości

RefSeq – baza sekwencji referencyjnych - poprawione transkrypty i białka. Homo sapiens Mus musculus Rattus norvegicus Drosophila melanogaster Danio rerio Arabidopsis thaliana ludzkie modelowe transkrypty i białka kontigi - „szkic” genomu ludzkiego i genom mysi zapisy genomów: genomy bakteryjne genomy organellarne genomy eukariotyczne Zapytanie przez: zakładkę Limits słowo kluczowe srcdb_refseq[PROPS]

Bioinformatyczne bazy danych Dziękuję za uwagę

Rezerwowy slajd - „Jeden wpis, jeden plik” – model „flat file” Powiązanie z wpisem w bazie białek FEATURES Location/Qualifiers source 1..154478 /organism="Arabidopsis thaliana" /organelle="plastid:chloroplast" /mol_type="genomic DNA" /cultivar="Columbia" /db_xref="taxon:3702" gene complement(join(97999..154478,1..69724)) /locus_tag="ArthCp001" CDS complement(join(97999..98024,98562..98793,69611..69724)) /codon_start=1 /transl_table=11 /product="ribosomal protein S12" /protein_id="NP_051037.1" /db_xref="GI:7525080" /translation="MPTIKQLIRNTRQPIRNVTKSPALRGCPQRRGTCTRVYTITPKK PNSALRKVARVRLTSGFEITAYIPGIGHNLQEHSVVLVRGGRVKDLPGVRYHIVRGTL DAVGVKDRQQGRSKYGVKKPK„ ............................................................................... BASE COUNT 48546 a 28496 c 27570 g 49866 t ORIGIN 1 atgggcgaac gacgggaatt gaacccgcga tggtgaattc acaatccact gccttaatcc 61 acttggctac atccgcccct acgctactat ctattctttt ttgtattgtc taaaaaaaaa 121 aaaaaataca aatttcaata aaaaataaaa aaaggtagca aattccacct tatttttttt 181 ctaataaaaa atatatagta attttttatt atttattatt attatttatt attaatataa 241 taaataaagt aaaatatgat actctataaa aatttgctca tttttataga aaaaaacgag Lokalizacja na sekwencji (wpisy GenBanku są skoncentrowane na sekwencji DNA [DNA-centric] ) Adnotacja (feature) Adnotacja niższego poziomu (qualifier) Adnotacja (base count) Sekwencja