Podstawy bioinformatyki – sekwencjonowanie nowej generacji

Slides:



Advertisements
Podobne prezentacje
Opinie Polaków na temat usług szpitalnych
Advertisements

The Thousand Islands Pan kiedyś stanął na brzegu
Co to jest BIOS ? Piotr Pierzchalski kl. III B.
Sytuacja synoptyczna: Front okluzji związany z niżem znad północnej Danii przemieszcza się na E. Zachmurzenie: 4-7/8 Cu Sc , miejscami 4-6/8.
Najnowsze trendy w grach Paweł Sasko. 49% 25% 26% Obecnie średnia wieku statystycznego gracza w USA wynosi 32 lata.
Gambit Centrum Oprogramowania i Szkoleń Sp. z o.o Kraków, al.Pokoju 29B/ Autoryzowany dystrybutor Thomson-Reuters.
EURYDICE Sieć Informacji o Edukacji w Europie, istnieje od 1980 r.
Bioinformatyczne bazy danych
WSIIZ PRACA DYPLOMOWA INŻYNIERSKA
UDZIAŁ BIBLIOTEKI PUBLICZNEJ W EDUKACJI MEDIALNEJ OBYWATELI
Biologiczne bazy danych
na podstawie dokumentów dostępnych EC Krajowy Punkt Kontaktowy PR UE
J. Nawrocki, Inżynieria oprog. Plan wykładu Praktyki XP Wcześniejsze badania Personal Software Process eXtremme Programming Opis eksperymentu WynikiPodsumowanie.
Dyscyplina i zwinność w projektach informatycznych
FIZYCZNE PODSTAWY MIKROTECHNOLOGII
Pakiety statystyczne Maciej Szydłowski (dr)
Makroskopowe parametry termodynamiczne: temperatura ciśnienie objętość.
Wykład 2: Systemy klasy C.A.T. (Computer-Aided Translation)
Życiorys mgr inż. Seweryn Lipiński Katedra Elektrotechniki i Energetyki Wydział Nauk Technicznych Uniwersytet Warmińsko-Mazurski w Olsztynie Urodzony:
Życiorys mgr inż. Zbigniew Paszkiewicz Katedra Technologii Informacyjnych WIGE UEP Urodzony: r. Wykształcenie: studia na kierunku.
Życiorys mgr inż. Rafał Mikołajczak Katedra Architektury Systemów Komputerowych WETI PG Urodzony: r. Wykształcenie: studia na kierunku.
Hibernate uzupełnienie
Metody i techniki wspomagające zarządzanie jakością
Dziennik do bilingu energii Domyślne wielkości co 15 min przez 12 dni kWh pobierana kWh całk kVARh pobierana kVARh całk kVAh całk PF całk 3-P Moc czynna.
Wyszukiwanie w bazach - warsztaty szkoleniowe Urząd Patentowy RP
Techniki programowania gier - Fizyka
Algorytmy genetyczne.
Kalendarza książkowego Polska Najpiękniejsza 2011 (wersja polsko-angielska) Grupa Wydawnicza Benkowski oferuje zakup ILUSTROWANEGO.
AUTORZY: Paulina Pluta kl. 3c Agata Łoboda kl.3c
Microsoft® Office x e l.
Małopolski rejestr zabiegów
Licencjonowanie Lync 2013 Poziom 200.
KOMITET NAUK ORGANIZACJI I ZARZĄDZANIA POLSKIEJ AKADEMII NAUK
Records Management with SharePoint 2010
Podstawy Informatyki II
______________________________________ TARGU-JIU 2010.
Zasoby wody na Ziemi i ich zużycie
Licencjonowanie aplikacji serwerowych
DIGISTER CSS spółka z o. o Katowice ul. Sobieskiego 27
Licencjonowanie narzędzi dla programistów
Quiz Liczby na co dzień Rozpocznij Quiz.
Polskie Parki Narodowe autor: Izabela Lara
Zarządzanie informacją
Robocze spotkanie Partnerów KAMSOFT
Copyright © 2010 Intel Corporation. All rights reserved. Intel and the Intel logo are trademarks or registered trademarks of Intel Corporation or its subsidiaries.
Visual Basic for Applications Poziom podstawowy Zajęcia 2
Technologie informacyjne II
Podsumowanie ćwiczeń z Informatyki
XML Publisher Przedmiot i zakres szkolenia Przedmiot i zakres szkolenia Przeznaczenie XML Publisher Przeznaczenie XML Publisher Definiowanie Definiowanie.
SPOSÓB ZARZĄDZANIA SIECIAMI KOMUNIKACYJNYMI „OSTATNIEJ MILI” W SYSTEMACH SMART GRID Piotr Kiedrowski i Łukasz Zabłudowski WYDZIAŁ TELEKOMUNIKCJI I ELEKTROTECHNIKI.
Komputerowe wspomaganie projektowania
Podejmij krok TERAZ rzucić palenie Take steps NOW to stop smoking
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Zagadnienia AI wykład 6.
Economic development in biodiversity-rich areas Tomasz Żylicz University of Warsaw
XVII Konferencja Programowa Warszawskiej Wyższej Szkoły Informatyki Gdańsk/Gdynia 5-7 wrzesień 2014 Andrzej Żyławski.
Języki formalne i gramatyki Copyright, 2005 © Jerzy R. Nawrocki Teoretyczne podstawy.
C OMPUTER. P ODZESPOŁY KOMPUTEROWE - C OMPUTER COMPONENTS.
drzewa filogenetyczne
OPTYMALIZACJA DZIAŁANIA PROGRAMU. 1. OPTYMALIZACJA Optymalizacja to sposób wyznaczania najlepszego rozwiązania. W programowaniu komputerowym są sposoby.
KOMPANIA WĘGLOWA S.A..
Czy komputery zabiją genomikę?. Problemy Ogromne ilości danych do przechowywania Zbyt słabe komputery aby „łączyć” sekwencje Nieoptymalne formaty danych.
DEFINITION OF COMPOSITE PROGRAMMABLE GRAPH (CP-GRAPH)
VG – AnyLAN NetWorld kwiecień 96 str.34.
Raport „Annual Review of Football Finance”
Bioinformatyczna analiza danych
Visual Basic for Applications
MODELOWANIE ZMIENNOŚCI CECH
Zapis prezentacji:

Podstawy bioinformatyki – sekwencjonowanie nowej generacji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Rozwój technologii i przyrost danych Wzrost olbrzymiej ilości i objętości surowych danych  potrzeba gromadzenia danych  potrzeba stworzenia skomplikowanych procedur komputerowych do zarządzania danymi 1 osobnik 1 kilo = 1000, 1 mega = 1mln, 1 giga = mld. Użyteczność technologii następnej generacji była znacząco poprawiona dzięki postępowi w dziedzinie bioinformatyki, która pozwoliła na zwiększenie magazynowania danych oraz analizy i ułatwione manipulowanie dużych zbiorów danych, często w zakresie gigabase (1 gigabase = 1000000000 par zasad DNA). Dane NGS w Katedrze Genetyki: 200 buhajów 32 krowy Magda Mielczarek NGS

DANE NGS The second-generation machines are characterized by highly parallel operation, higher yield, simpler operation, much lower cost per read, and (unfortunately) shorter reads. Today’s machines are commonly referred to as short-read sequencers or next-generation sequencers (NGS) though their successors may be on the horizon (Miller 2010). Sekwenatory pierwszej generacji : 500 – 1000 bp Sekwenatory drugiej generacji: 454 Roche 400 – 700 bp Illumina 100 bp (35 – 150 bp ) SOLiD 100 bp Krótsze odczyty: mniej informacji ich składanie wymaga większego pokrycia genomu Magda Mielczarek NGS

Pokrycie genomu wysokie pokrycie niskie pokrycie Krótkie Sekwencje referencyjny Magda Mielczarek NGS

Baza danych NCBI - Sequence Read Archive http://www.ncbi.nlm.nih.gov/sra Magda Mielczarek NGS

Dane - format fastq SRR988073_1.fastq SRR988073_2.fastq Magda Mielczarek NGS

Dane - format fastq 1. Nazwa sekwencji 2. Sekwencja 3. Separator 4. Jakość sekwencji (uwaga na kodowanie!) 1 odczyt (read) Magda Mielczarek NGS

Kodowanie jakości http://en.wikipedia.org/wiki/FASTQ_format 10 – 1 na 10, 20 – 1 na 100, 30 – 1 na 1000, 40 – 1 na 10000 http://en.wikipedia.org/wiki/FASTQ_format Magda Mielczarek NGS

Dane – pary odczytów (paired-end) SRR988073_1.fastq SRR988073_2.fastq Magda Mielczarek NGS

Dane – pary odczytów (paired-end) Single –end Paired – end Reference Read 1 Reference Read 1 Read 2 Magda Mielczarek NGS

Dane – pary odczytów (paired-end) Single –end Paired – end Reference Read 1 Reference Read 1 Read 2 Magda Mielczarek NGS

FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/  Kontrola jakości danych Graficzne przedstawienie sekwencji Tworzenie raportu Brak możliwości filtracji danych Magda Mielczarek NGS

Basic statistics Magda Mielczarek NGS

Per base sequence quality Jakość dla każdej pozycji Mediana Wykres pudełkowy Max/min Średnia Ostrzeżenie – niższy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25 Awaria – niższy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20 Length  35bp to 150bp, typically 100bp today Attributes  High quality at 5' start, lowers toward 3' end Mediana – wartość środkowa Magda Mielczarek NGS

Per sequence quality scores Średnia jakość sekwencji Ostrzeżenie – najczęściej obserwowane średnia jakość <27 Awaria – najczęściej obserwowane średnia jakość< 20 Magda Mielczarek NGS

Per base N content Ostrzeżenie – dowolna pozycja pokazuje zawartość N> 5%. Awaria – dowolna pozycja pokazuje zawartość N> 20%. Magda Mielczarek NGS

Sequence Length Distribution Ostrzeżenie – sekwencje nie są tej samej długości Awaria – którakolwiek sekwencja ma długość 0 Magda Mielczarek NGS

Edycja danych Magda Mielczarek NGS

Torsten Seemann - Cleaning Illumina reads Magda Mielczarek NGS

PRINSEQ http://prinseq.sourceforge.net/index.html Homopolimey aactttaaccttttaaaacccccttaaaaaaactttaaaccccgtaaaccccccgggttt ttttttaaaaaaccgttttttacgggggtttaccccgttttaccggggttttgggggttt taaaaaaaacgggttttaaacgggttaacccccgggttttccgggggtttaaaaagtttt Magda Mielczarek NGS

PRINSEQ Jakoś satysfakcjonująca - 20 Dopuszczalna długość sekwencji - 60 pz Magda Mielczarek NGS

Przyrównanie do genomu referencyjnego Magda Mielczarek NGS

Przyrównanie do sekwencji referencyjnej  złożenie krótkich fragmentów ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT ACTGGGGGGGA GGGAAAAATTTC GGGAACCTTTCT CCTTTCTTTGGA reference read Magda Mielczarek NGS

Genom referencyjny - NCBI Magda Mielczarek NGS

Genom referencyjny - format fasta Adenozyna C Cytozyna G Guanina T Tymina U Uracyl R G A (puRyna) Y T C (pirYmidyna) S G C (Strong) W A T (Weak) B G T C (not A) D G A T (not C) H A C T (not G) V G C A (not T) N A G C T (aNy) Magda Mielczarek NGS

Przyrównanie do genomu referencyjnego - software Bfast BioScope Bowtie BWA CLC bio CloudBurst Eland/Eland2 GenomeMapper GnuMap Karma MAQ MOM Mosaik MrFAST/MrsFAST NovoAlign PASS PerM RazerS RMAP SSAHA2 Segemehl SeqMap SHRiMP Slider/SliderII SOAP/SOAP2 Stampy ZOOM… … i wiele wiele innych Magda Mielczarek NGS

Przyrównanie do genomu referencyjnego - algorytmy Oprogramowanie = formatowanie genomu referencyjnego + przyrównanie do genomu referencyjnego 1. Hash table: „Hash table on the set of input reads” „Hash table on the reference genome” 2. Transformata Burrowsa-Wheelera (BWT) Magda Mielczarek NGS

BWA Magda Mielczarek NGS

Przykłady programów Name OS Input Output Supported platforms Indexing method Gapped alignment BarraCUDA Lin FASTQ SAM Illumina FM index (BWT) yes BFAST Illumina, ABI SOLiD, 454 Multiple (hash, tree, …) Bowtie Lin, Mac, Win FASTQ, FASTA Illumina, ABI SOLiD no Bowtie2 FASTQ, FASTA, QSEQ Illumina, 454 BWA (CS)FASTQ, FASTA Illumina, ABI SOLiD(1) BWA-SW 454 ELAND - MAQ Maq Hash based Mosaik SAM, BED, several others mrFAST SAM, DIVET mrsFAST Novoalign Lin, Mac FASTQ, (CS)FASTA SAM, TXT SOAP2 SOAP (2) SOAP3 SSAHA2 FASTA SAM, GFF Tree index Stampy YOABS FM & Tree index Tabela2. Programy służące do przyrównania do genomu referencyjnego (Pabinger et.al. 2013) Magda Mielczarek NGS

Format SAM Sequence Alignment/Map Format: popularny, uniwersalny zawiera informacje na temat przyrównania header section alignment section Magda Mielczarek NGS

Format BAM Binary Alignment/Map Format: binarny odpowiednik formatu SAM skompresowany przez BGZF zajmuje mniej pamięci dysku (stanowi ok. 27% oryginalnego pliku w formacie SAM) Magda Mielczarek NGS

Poszukiwanie POLIMORFIZMÓW DNA Magda Mielczarek NGS

Poszukiwanie polimorfizmów SNP – Polimorfizm pojedynczego nukleotydu ACTGACTGACTGCCCGTTCCA ACTGACTCACTGCCCGTTCCG INDEL: insercja delecja ACTGACTGACTGCCCGTTCCA ACTGACTGACTGCCCGTTCC ACTGACTGACTGGCTCCCGTTCCA ACTGA - - - - CTGCCCGTTCC Magda Mielczarek NGS

Poszukiwanie polimorfizmów – pakiet Samtools http://samtools.sourceforge.net/ http://samtools.sourceforge.net/mpileup.shtml Magda Mielczarek NGS

SNP Venn diagrams showing the number of identified variants for tested tools (Pabinger et al. 2013) Magda Mielczarek NGS

IGV http://www.broadinstitute.org/igv/ Magda Mielczarek NGS

IGV Magda Mielczarek NGS

Automatyzacja pracy Automatyzacja działania programów pozwala na: skrócenie czasu analiz – równoległe działanie programów oszczędność czasu - uniwersalność skryptów, wykorzystanie dla różnych danych unikanie błędów pracę z ogromnymi zbiorami danych Magda Mielczarek NGS