Podstawy bioinformatyki – sekwencjonowanie nowej generacji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu
Rozwój technologii i przyrost danych Wzrost olbrzymiej ilości i objętości surowych danych potrzeba gromadzenia danych potrzeba stworzenia skomplikowanych procedur komputerowych do zarządzania danymi 1 osobnik 1 kilo = 1000, 1 mega = 1mln, 1 giga = mld. Użyteczność technologii następnej generacji była znacząco poprawiona dzięki postępowi w dziedzinie bioinformatyki, która pozwoliła na zwiększenie magazynowania danych oraz analizy i ułatwione manipulowanie dużych zbiorów danych, często w zakresie gigabase (1 gigabase = 1000000000 par zasad DNA). Dane NGS w Katedrze Genetyki: 200 buhajów 32 krowy Magda Mielczarek NGS
DANE NGS The second-generation machines are characterized by highly parallel operation, higher yield, simpler operation, much lower cost per read, and (unfortunately) shorter reads. Today’s machines are commonly referred to as short-read sequencers or next-generation sequencers (NGS) though their successors may be on the horizon (Miller 2010). Sekwenatory pierwszej generacji : 500 – 1000 bp Sekwenatory drugiej generacji: 454 Roche 400 – 700 bp Illumina 100 bp (35 – 150 bp ) SOLiD 100 bp Krótsze odczyty: mniej informacji ich składanie wymaga większego pokrycia genomu Magda Mielczarek NGS
Pokrycie genomu wysokie pokrycie niskie pokrycie Krótkie Sekwencje referencyjny Magda Mielczarek NGS
Baza danych NCBI - Sequence Read Archive http://www.ncbi.nlm.nih.gov/sra Magda Mielczarek NGS
Dane - format fastq SRR988073_1.fastq SRR988073_2.fastq Magda Mielczarek NGS
Dane - format fastq 1. Nazwa sekwencji 2. Sekwencja 3. Separator 4. Jakość sekwencji (uwaga na kodowanie!) 1 odczyt (read) Magda Mielczarek NGS
Kodowanie jakości http://en.wikipedia.org/wiki/FASTQ_format 10 – 1 na 10, 20 – 1 na 100, 30 – 1 na 1000, 40 – 1 na 10000 http://en.wikipedia.org/wiki/FASTQ_format Magda Mielczarek NGS
Dane – pary odczytów (paired-end) SRR988073_1.fastq SRR988073_2.fastq Magda Mielczarek NGS
Dane – pary odczytów (paired-end) Single –end Paired – end Reference Read 1 Reference Read 1 Read 2 Magda Mielczarek NGS
Dane – pary odczytów (paired-end) Single –end Paired – end Reference Read 1 Reference Read 1 Read 2 Magda Mielczarek NGS
FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Kontrola jakości danych Graficzne przedstawienie sekwencji Tworzenie raportu Brak możliwości filtracji danych Magda Mielczarek NGS
Basic statistics Magda Mielczarek NGS
Per base sequence quality Jakość dla każdej pozycji Mediana Wykres pudełkowy Max/min Średnia Ostrzeżenie – niższy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25 Awaria – niższy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20 Length 35bp to 150bp, typically 100bp today Attributes High quality at 5' start, lowers toward 3' end Mediana – wartość środkowa Magda Mielczarek NGS
Per sequence quality scores Średnia jakość sekwencji Ostrzeżenie – najczęściej obserwowane średnia jakość <27 Awaria – najczęściej obserwowane średnia jakość< 20 Magda Mielczarek NGS
Per base N content Ostrzeżenie – dowolna pozycja pokazuje zawartość N> 5%. Awaria – dowolna pozycja pokazuje zawartość N> 20%. Magda Mielczarek NGS
Sequence Length Distribution Ostrzeżenie – sekwencje nie są tej samej długości Awaria – którakolwiek sekwencja ma długość 0 Magda Mielczarek NGS
Edycja danych Magda Mielczarek NGS
Torsten Seemann - Cleaning Illumina reads Magda Mielczarek NGS
PRINSEQ http://prinseq.sourceforge.net/index.html Homopolimey aactttaaccttttaaaacccccttaaaaaaactttaaaccccgtaaaccccccgggttt ttttttaaaaaaccgttttttacgggggtttaccccgttttaccggggttttgggggttt taaaaaaaacgggttttaaacgggttaacccccgggttttccgggggtttaaaaagtttt Magda Mielczarek NGS
PRINSEQ Jakoś satysfakcjonująca - 20 Dopuszczalna długość sekwencji - 60 pz Magda Mielczarek NGS
Przyrównanie do genomu referencyjnego Magda Mielczarek NGS
Przyrównanie do sekwencji referencyjnej złożenie krótkich fragmentów ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT ACTGGGGGGGA GGGAAAAATTTC GGGAACCTTTCT CCTTTCTTTGGA reference read Magda Mielczarek NGS
Genom referencyjny - NCBI Magda Mielczarek NGS
Genom referencyjny - format fasta Adenozyna C Cytozyna G Guanina T Tymina U Uracyl R G A (puRyna) Y T C (pirYmidyna) S G C (Strong) W A T (Weak) B G T C (not A) D G A T (not C) H A C T (not G) V G C A (not T) N A G C T (aNy) Magda Mielczarek NGS
Przyrównanie do genomu referencyjnego - software Bfast BioScope Bowtie BWA CLC bio CloudBurst Eland/Eland2 GenomeMapper GnuMap Karma MAQ MOM Mosaik MrFAST/MrsFAST NovoAlign PASS PerM RazerS RMAP SSAHA2 Segemehl SeqMap SHRiMP Slider/SliderII SOAP/SOAP2 Stampy ZOOM… … i wiele wiele innych Magda Mielczarek NGS
Przyrównanie do genomu referencyjnego - algorytmy Oprogramowanie = formatowanie genomu referencyjnego + przyrównanie do genomu referencyjnego 1. Hash table: „Hash table on the set of input reads” „Hash table on the reference genome” 2. Transformata Burrowsa-Wheelera (BWT) Magda Mielczarek NGS
BWA Magda Mielczarek NGS
Przykłady programów Name OS Input Output Supported platforms Indexing method Gapped alignment BarraCUDA Lin FASTQ SAM Illumina FM index (BWT) yes BFAST Illumina, ABI SOLiD, 454 Multiple (hash, tree, …) Bowtie Lin, Mac, Win FASTQ, FASTA Illumina, ABI SOLiD no Bowtie2 FASTQ, FASTA, QSEQ Illumina, 454 BWA (CS)FASTQ, FASTA Illumina, ABI SOLiD(1) BWA-SW 454 ELAND - MAQ Maq Hash based Mosaik SAM, BED, several others mrFAST SAM, DIVET mrsFAST Novoalign Lin, Mac FASTQ, (CS)FASTA SAM, TXT SOAP2 SOAP (2) SOAP3 SSAHA2 FASTA SAM, GFF Tree index Stampy YOABS FM & Tree index Tabela2. Programy służące do przyrównania do genomu referencyjnego (Pabinger et.al. 2013) Magda Mielczarek NGS
Format SAM Sequence Alignment/Map Format: popularny, uniwersalny zawiera informacje na temat przyrównania header section alignment section Magda Mielczarek NGS
Format BAM Binary Alignment/Map Format: binarny odpowiednik formatu SAM skompresowany przez BGZF zajmuje mniej pamięci dysku (stanowi ok. 27% oryginalnego pliku w formacie SAM) Magda Mielczarek NGS
Poszukiwanie POLIMORFIZMÓW DNA Magda Mielczarek NGS
Poszukiwanie polimorfizmów SNP – Polimorfizm pojedynczego nukleotydu ACTGACTGACTGCCCGTTCCA ACTGACTCACTGCCCGTTCCG INDEL: insercja delecja ACTGACTGACTGCCCGTTCCA ACTGACTGACTGCCCGTTCC ACTGACTGACTGGCTCCCGTTCCA ACTGA - - - - CTGCCCGTTCC Magda Mielczarek NGS
Poszukiwanie polimorfizmów – pakiet Samtools http://samtools.sourceforge.net/ http://samtools.sourceforge.net/mpileup.shtml Magda Mielczarek NGS
SNP Venn diagrams showing the number of identified variants for tested tools (Pabinger et al. 2013) Magda Mielczarek NGS
IGV http://www.broadinstitute.org/igv/ Magda Mielczarek NGS
IGV Magda Mielczarek NGS
Automatyzacja pracy Automatyzacja działania programów pozwala na: skrócenie czasu analiz – równoległe działanie programów oszczędność czasu - uniwersalność skryptów, wykorzystanie dla różnych danych unikanie błędów pracę z ogromnymi zbiorami danych Magda Mielczarek NGS