Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Bioinformatyczne bazy danych cz. I Grzegorz Koczyk © 2003.

Podobne prezentacje


Prezentacja na temat: "Bioinformatyczne bazy danych cz. I Grzegorz Koczyk © 2003."— Zapis prezentacji:

1 Bioinformatyczne bazy danych cz. I Grzegorz Koczyk © 2003

2 Bazy danych informacji biologicznej Zoorganizowane zbiory dużych ilości danych biologicznych. Z reguły połączone z oprogramowaniem do manipulacji tymi danymi: przeszukiwania odzyskiwania dołączania Cechy dobrej bazy danych Możliwość precyzyjnego uzyskiwania pożądanych informacji Łatwy dostęp

3 Bazy danych informacji biologicznej Bioinformatyczne bazy danych Secondary -poświęcone konkretnemu organizmowi (TAIR) lub danym (UniGene, dbSNP) - tworzone automatycznie (NCBI UniGene) lub nadzorowane (NCBI RefSeq) Primary - zautomatyzowane - zbieranie rekordów bezpośrednio z badań NCBI, DDBJ, EMBL

4 >gi| |gb|CF |CF TaRGA.C2 [...] ACAATTGGTTTATGCCCATGAGGAGAAAGACAAGAAAGACAACAAGGAAGGTCAC TTCGACCTGGTTATGTGGGTCCATGTCTCTCAGAGTTTTAGTGTGGGCGACATCT TCAAGGAGTTGTATGAGGCAGCTTCAGAGCCTAAGGTTGCATGCCCTCAATTTCA TAACCTGAATGCCTTGGAAAAGGAATTGGAGAGGAAACTAGATGGAAAAAGATTC CTTCTAGTACTAGATGATGTCTGGTGCAACAAGGATGTCGGTAACGAGGAGCTAC CAAAGTTACTTACTCCACTGAAGAAAGGAAAGAGAGGAAGCAAGATCCTAGTGAC AACTCGAAGTAAATTTCCATTGTCGGATCAAGGTCCCGGTGTGCGGCATACTGCA ATGCCAATAAATGAGGTTAATGATACTGCCTTCTTCGAGCTATTCATGCACTATG CCCTCGAAGAAGGCCAAGACTGGAGCCTGTTCAAGACCATTGGTGAGGAGATTGC AGAAAAGCTG Jeden wpis, jeden plik – FASTA Pojedyńczy plik reprezentuje pojedyńczą sekwencję. Przykład: FASTA Numer GI Accession.Version

5 Struktura przechowywanych danych Adnotacje (geny, nazwiska autorów) Adnotacje (geny, nazwiska autorów) Adnotacje (geny, nazwiska autorów) Pole = Adnotacja (geny, nazwiska autorów) Baza danychKLUCZ unikalny identyfikator POWIĄZANIE (niekoniecznie z wpisem tej samej bazy) Rekord bazy danych (sekwencja, publikacja) Rekord bazy danych (sekwencja, publikacja) Rekord bazy danych (sekwencja, publikacja) Rekord = Wpis (sekwencja, publikacja) Adnotacje (geny, nazwiska autorów) Adnotacje (geny, nazwiska autorów) Adnotacje (geny, nazwiska autorów) Kolejne poziomy adnotacji.... podtyp

6 Jeden wpis, jeden plik – model flat file Pojedyńczy plik reprezentuje pojedyńczy wpis (np. sekwencję). Przykład: GenBank Flat File Format LOCUS NC_ bp DNA circular PLN 06-AUG-2003 DEFINITION Arabidopsis thaliana chloroplast, complete genome. ACCESSION NC_ VERSION NC_ GI: KEYWORDS. SOURCE chloroplast Arabidopsis thaliana (thale cress) ORGANISM Arabidopsis thaliana Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; rosids; eurosids II; Brassicales; Brassicaceae; Arabidopsis. REFERENCE 1 (sites) AUTHORS Sato,S., Nakamura,Y., Kaneko,T., Asamizu,E. and Tabata,S. TITLE Complete structure of the chloroplast genome of Arabidopsis thaliana JOURNAL DNA Res. 6 (5), (1999) MEDLINE PUBMED FEATURES Location/Qualifiers source /organism="Arabidopsis thaliana" /organelle="plastid:chloroplast" /mol_type="genomic DNA" /cultivar="Columbia" /db_xref="taxon:3702" Accession.VersionIdentyfikator GenBank Powiązanie z bazą PubMed Powiązanie z wpisem taksonu

7 Jeden wpis, jeden plik – model flat file FEATURES Location/Qualifiers source /organism="Arabidopsis thaliana" /organelle="plastid:chloroplast" /mol_type="genomic DNA" /cultivar="Columbia" /db_xref="taxon:3702" gene complement(join( , )) /locus_tag="ArthCp001" CDS complement(join( , , )) /locus_tag="ArthCp001" /codon_start=1 /transl_table=11 /product="ribosomal protein S12" /protein_id="NP_ " /db_xref="GI: " /translation="MPTIKQLIRNTRQPIRNVTKSPALRGCPQRRGTCTRVYTITPKK PNSALRKVARVRLTSGFEITAYIPGIGHNLQEHSVVLVRGGRVKDLPGVRYHIVRGTL DAVGVKDRQQGRSKYGVKKPK BASE COUNT a c g t ORIGIN 1 atgggcgaac gacgggaatt gaacccgcga tggtgaattc acaatccact gccttaatcc 61 acttggctac atccgcccct acgctactat ctattctttt ttgtattgtc taaaaaaaaa 121 aaaaaataca aatttcaata aaaaataaaa aaaggtagca aattccacct tatttttttt 181 ctaataaaaa atatatagta attttttatt atttattatt attatttatt attaatataa 241 taaataaagt aaaatatgat actctataaa aatttgctca tttttataga aaaaaacgag Adnotacja (feature) Adnotacja niższego poziomu (qualifier) Sekwencja Adnotacja (base count)

8 Wady modeluflat file - brak możliwości ograniczenia zapytania do pewnych pól (bez przeglądania całych plików) - powolne zapytania, powolne dołączanie nowych wpisów (ponownie konieczność przeglądania całych plików) - jednoczesność (co będzie jak kilka osób zmodyfikuje jednocześnie ten sam wpis) - spójność (jak sprawdzać czy wprowadzane wartości są prawidłowe – np. czy powiązania wskazują na istniejące zapisy)

9 Indeksowanie Arabidopsis thaliana Triticum aestivum Hordeum vulgare Mus musculus Canis lupus Homo sapiens Xenopus laevis identyfikator #1 identyfikator #2 identyfikator #3 Indeks umożliwia dotarcie do kluczy wpisów zawierających żądaną adnotację / słowo kluczowe (tu: nazwę taksonu) – bez przeszukiwania całej bazy.

10 NCBI Entrez – system naczyń połączonych Zintegrowany system dostępu do informacji (sekwencje, struktury, literatura...)

11 Powiązania, a sąsiedztwo Powiązania to statyczny, zakodowany we wpisie związek pomiędzy nim a innymi wpisami (w tej samej bazie lub innych). Sąsiedztwo to dynamiczny związek pomiędzy wpisem, a podobnymi do niego wpisami. Przykłady sąsiedztw: - podobne sekwencje (BLAST) - podobne struktury (VAST) - podobne artykuły (word weighting)

12 NCBI Entrez – system naczyń połączonych Genomes Taxonomy PubMed abstracts Nucleotide sequences Protein sequences 3-D Structure Word weight VAST BLAST Phylogeny

13 Zapytania w Entrez wheat (domyślnie zapytanie odnosi się do wszystkich zindeksowanych pól) Pojedyńcze zapytanie tworzy się dodając do słowa kluczowego informację do jakiego zindeksowanego pola ma się odnosić. 1980/01/01:2000/01/01[Publication Date] wheat [Organism] W przypadku zapytania o liczby lub daty, zakres podaje się oddzielając wartości :.

14 Zapytania w Entrez - spójniki wheat [Organism] AND (Feuillet [Author] OR Keller[Author]) NOT 1980/01/01:2000/01/01[Publication Date] Poszczególne zapytania cząstkowe łączone są przy pomocy spójników (operatorów logicznych) AND obydwa warunki muszą być spełnione (spójnik domyślny) OR przynajmniej jeden z warunków musi być spełniony NOT dany warunek nie ma być spełniony (interpretowane jako AND NOT)

15 Zapytania w Entrez - nawiasy wheat [Organism] AND (Feuillet [Author] OR Keller[Author]) NOT 1980/01/01:2000:/01/01[Publication Date] - zapytania interpretowane są od lewej do prawej - wszystkie spójniki są równej wagi (nie ma pierwszeństwa) - nawiasy powodują traktowanie zawartości jako odrębnego zapytania wheat [Organism] AND Feuillet [Author] OR Keller[Author] NOT 1980/01/01:2000:/01/01[Publication Date] a to już coś innego:

16 Zapytania w Entrez – ciągi wyrażeń Triticum aestivum [Organism] Ciąg słów jest interpretowany, jako całość tylko jeśli stanowi poprawną wartość w indeksie. W innym wypadku, cudzysłowy NIE WYMUSZAJĄ interpretowania ciągu jako całości ! Zapytanie w postaci ciągu liczb (tylko i wyłącznie liczb) jest interpretowane jako lista unikalnych identyfikatorów wpisów, połączona spójnikiem OR. Wszystkie wpisy o podanych identyfikatorach zostaną odzyskane z bazy !

17 Dane literaturowe - PubMed Większość wpisów pochodzi z anglojęzycznych źródeł lub posiada angielskie streszczenia. Streszczenia i cytacje z ponad 4500 periodyków

18 Dane literaturowe - Books około 30 tytułów, gł. tematyka biomedyczna między innymi: - Molecular Biology of the Cell - Molecular Cell Biology - Introduction to Genetic Analysis - Genomes

19 Dane literaturowe – PubMed Central archiwum artykułów, dostępnych bez opłaty ponad 50 periodyków (+47 pozycji BioMed Central), w tym: - Plant Cell - Plant Physiology - PNAS - Nucleic Acids Research

20 PubMed - zapytania Pierwotnie słowa nieokreślone co do pola są sprawdzane względem trzech indeksów: Terminów biomedycznych z MeSH (słownik hierarchiczny = same terminy i słowa oznaczające ich synonimy oraz podkategorie) Nazw znanych periodyków np. (New England Journal of Medicine) odpowiada skrótowi N Engl J Med Autorów - o ile zapisany ciąg pasuje do formatu: (np. Crick F)

21 PubMed – znaleźć artykuł [TA] Journal Title [TI] Article Title [DP] Publication Date [VI] Volume [IP] Issue [PG] Pagination [UID] Unique Identifier

22 PubMed – znaleźć autora [AU] Author [AD] Affiliation PubMed – znaleźć słowo [TI] Title [TIAB] Title/ Abstract [TW] Text Word [AB] Abstract

23 Narzędzia pomocnicze Limits (ograniczenia) pozwala ograniczyć przeszukiwanie do określonego(zindeksowanego) pola Preview/Index (podgląd) pozwala przejrzeć zindeksowane pola i ich możliwe wartości History przechowuje poprzednie rezultaty – można się do nich odwoływać Clipboard (schowek) pozwala przeglądać zachowane cytacje Details pozwala przejrzeć szczegóły zapytania i wynikłe błędy

24 Powiązania z innymi wpisami Poszukiwanie pokrewnych artykułów (ważenie słów kluczowych = word weighting) Powiązania z wpisami innych baz, oraz powiązania zewnętrzne (LinkOut)

25 PubMed - Limits Ograniczenie zapytania do wybranego pola Ograniczenie do typu publikacji, np. Journal Data publikacji

26 PubMed – Preview/Index Wyświetla kolejną partię możliwych wartości pola Wstępnie przetwarza zapytanie (pokazuje ilość znalezionych wpisów)

27 PubMed - History Można używać dawnych zapytań, jako terminów

28 PubMed - Details Modyfikacja zapytania, widoczne końcowe łączenie terminów Modyfikacje wprowadzone przez Entrez

29 PubMed - Clipboard Możliwości: Text, File, Clipboard

30 Dane sekwencji - bazy Początkowy format baz danych był formatem flat-file. Równolegle funkcjonowało kilka inicjatyw. EMBL DDBJ GenBank SRS Entrez getentry

31 GenBank – pierwotna baza danych NCBI pełne uaktualnienia co dwa miesiące uaktualnienia przyrostowe codziennie obecnie dostępna tylko przez Internet ftp://ncbi.nlm.nih.gov

32 Nucleotide - Limits Ograniczenie do określonego typu cząsteczki (np. rRNA) Ograniczenie do określonej bazy danych np. sekwencji referencyjnych RefSeq Sposób pokazywania wpisów składanych

33 Protein – Limits Wybór lokalizacji (jądro, organelle)

34 Zbiorcze zapytania Zbiorcze zapytania (Batch Entrez)

35 Zapytania w bazach sekwencji - polaSkrót Pełna nazwa Opis [ACCN]Accession unikalny kod Accession przyporządkowany rekordowi [ECNO] EC/ RN Number numery klasyfikacji enzymów (EC lub CAS) [FKEY] Feature Key adnotowane na wpisach sekwencji features [FILT]Filter przefiltrowane podzbiory danej bazy [ALL]All wszystkie terminy znajdujące się w dowolnym polu bazy [AUTH]Author autorzy powiązanych publikacji

36 Zapytania w bazach sekwencji - polaSkrót Pełna nazwa Opis [GENE] Gene Name standardowe/potoczne nazwy genów w bazie [ISS]Issue numer periodyku w którym opublikowano dane [JOUR]Journal nazwa (skrócona) lub ISSN periodyku [KYWD]Keyword słowa kluczowe ze słowników GenBanku, EMBL, DDBJ, SWISS-Prot, PIR, PRF lub PDB. [MDAT] Modification Date daty ostatniej modyfikacji rekordów (YYYY/MM/DD)

37 Zapytania w bazach sekwencji - polaSkrót Pełna nazwa Opis [MOLWT] Molecular Weight waga białka (pole 6-cyfrowe, uzupełniane zerami) [ORGN]Organism nazwa taksonu do którego odnosi się wpis [PAGE]Page numery pierwszych stron powiązanych publikacji [PROP]Properties własności sekwencji białkowej lub nukleotydowej (typ molekuły, pododdział GenBanku itp.) [PROT] Protein Name nazwy białek zawartych w bazie

38 Zapytania w bazach sekwencji - polaSkrót Pełna nazwa Opis [PDAT] Publication Date daty powiązanych publikacji w formacie YYYY/MM/DD [SQID] SeqID String unikalne identyfikatory wszystkich wpisów [SUBS] Substance Name nazwy substancji powiązanej z wpisem (rejestr CAS lub nazwa MEDLINE) [TITL] Title word słowa znalezione w liniach definicji rekordów (organizm, nazwa genu/produktu, symbol genu, typ molekuły...) [SLEN]Length długość sekwencji

39 Zapytania w bazach sekwencji - polaSkrót Pełna nazwa Opis [UID]Uid unikalne identyfikatory publikacji powiązanych z wpisami [WORD] Text word dowolne zindeksowane słowo w opisie wpisu [VOL]Volume tomy periodyków związane z wpisami bazy

40 Bazy sekwencji – poznać wpis po artykule [JOUR] Journal Name [AUTH] Author [PDAT] Publication Date [VOL] Volume [ISS] Issue [PAGE] Page [UID] Unique Identifier

41 Bazy sekwencji –poznać wpis po opisie [TITL] Title (słowa w definicji rekordu) [ACC] Accession [SLEN] Sequence Length [MOLWT] Molecular Weight (rekordy białek) [WORD] Text Word (dowolne słowo w opisie rekordu) [ECNO] EC/RN Number (rekordy białek) [MDAT] Modification Date [GENE] Gene [PROT] Protein

42 GenBank divisions – gbdiv_XXX [PROPS] Tradycyjne (pseudo-taksonomiczne): BCT (bacteria) INV (invertebrate) MAM (other mammals) PHG (phages) PLN (plants, fungi, algae)PRI (primate) ROD (rodents) SYN (synthetic) UNA (unannotated) VRL (viral) VRT (other vertebrate) Podział ze względu na naturę sekwencji: PAT Patent EST Expressed Sequence Tags STS Sequence Tagged Sites GSS Genome Survey Sequences HTG High Throughput Genome HTC High Throughput cDNA CON Contig

43 Kilka uwag – Protein & Nucleotide - poszukiwanie synonimów (sekwencji identycznych) – BLAST bez maskowania - rekordy powiązane PDB i SWISSPROT nie są oryginalnymi rekordami i należy je dodatkowo sprawdzić w bazach macierzystych Molecular Information Agent (masowe przeszukiwanie >50 baz) Sekwencje genomowe ciąg nieznanych nukleotydów N dłuższy niż 100 wskazuje w rzeczywistości na przerwę nieznanej długości

44 RefSeq – baza sekwencji referencyjnych - poprawione transkrypty i białka. - Homo sapiens - Mus musculus - Rattus norvegicus - Drosophila melanogaster - Danio rerio - Arabidopsis thaliana - ludzkie modelowe transkrypty i białka - kontigi - szkic genomu ludzkiego i genom mysi - zapisy genomów: - genomy bakteryjne - genomy organellarne - genomy eukariotyczne Zapytanie przez: zakładkę Limits słowo kluczowe srcdb_refseq[PROPS]

45 Bioinformatyczne bazy danych Dziękuję za uwagę

46 Rezerwowy slajd - Jeden wpis, jeden plik – model flat file FEATURES Location/Qualifiers source /organism="Arabidopsis thaliana" /organelle="plastid:chloroplast" /mol_type="genomic DNA" /cultivar="Columbia" /db_xref="taxon:3702" gene complement(join( , )) /locus_tag="ArthCp001" CDS complement(join( , , )) /locus_tag="ArthCp001" /codon_start=1 /transl_table=11 /product="ribosomal protein S12" /protein_id="NP_ " /db_xref="GI: " /translation="MPTIKQLIRNTRQPIRNVTKSPALRGCPQRRGTCTRVYTITPKK PNSALRKVARVRLTSGFEITAYIPGIGHNLQEHSVVLVRGGRVKDLPGVRYHIVRGTL DAVGVKDRQQGRSKYGVKKPK BASE COUNT a c g t ORIGIN 1 atgggcgaac gacgggaatt gaacccgcga tggtgaattc acaatccact gccttaatcc 61 acttggctac atccgcccct acgctactat ctattctttt ttgtattgtc taaaaaaaaa 121 aaaaaataca aatttcaata aaaaataaaa aaaggtagca aattccacct tatttttttt 181 ctaataaaaa atatatagta attttttatt atttattatt attatttatt attaatataa 241 taaataaagt aaaatatgat actctataaa aatttgctca tttttataga aaaaaacgag Adnotacja (feature) Adnotacja niższego poziomu (qualifier) Lokalizacja na sekwencji (wpisy GenBanku są skoncentrowane na sekwencji DNA [DNA-centric] ) Sekwencja Adnotacja (base count) Powiązanie z wpisem w bazie białek


Pobierz ppt "Bioinformatyczne bazy danych cz. I Grzegorz Koczyk © 2003."

Podobne prezentacje


Reklamy Google