Pobierz prezentację
OpublikowałMalwina Hoffmann Został zmieniony 10 lat temu
1
Podstawy bioinformatyki – sekwencjonowanie nowej generacji
Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu
2
Rozwój technologii i przyrost danych
Wzrost olbrzymiej ilości i objętości surowych danych potrzeba gromadzenia danych potrzeba stworzenia skomplikowanych procedur komputerowych do zarządzania danymi 1 osobnik 1 kilo = 1000, 1 mega = 1mln, 1 giga = mld. Użyteczność technologii następnej generacji była znacząco poprawiona dzięki postępowi w dziedzinie bioinformatyki, która pozwoliła na zwiększenie magazynowania danych oraz analizy i ułatwione manipulowanie dużych zbiorów danych, często w zakresie gigabase (1 gigabase = par zasad DNA). Dane NGS w Katedrze Genetyki: 200 buhajów 32 krowy Magda Mielczarek NGS
3
DANE NGS The second-generation machines are characterized by highly parallel operation, higher yield, simpler operation, much lower cost per read, and (unfortunately) shorter reads. Today’s machines are commonly referred to as short-read sequencers or next-generation sequencers (NGS) though their successors may be on the horizon (Miller 2010). Sekwenatory pierwszej generacji : 500 – 1000 bp Sekwenatory drugiej generacji: 454 Roche 400 – 700 bp Illumina 100 bp (35 – 150 bp ) SOLiD 100 bp Krótsze odczyty: mniej informacji ich składanie wymaga większego pokrycia genomu Magda Mielczarek NGS
4
Pokrycie genomu wysokie pokrycie niskie pokrycie Krótkie Sekwencje
referencyjny Magda Mielczarek NGS
5
Baza danych NCBI - Sequence Read Archive
Magda Mielczarek NGS
6
Dane - format fastq SRR988073_1.fastq SRR988073_2.fastq
Magda Mielczarek NGS
7
Dane - format fastq 1. Nazwa sekwencji 2. Sekwencja 3. Separator 4. Jakość sekwencji (uwaga na kodowanie!) 1 odczyt (read) Magda Mielczarek NGS
8
Kodowanie jakości http://en.wikipedia.org/wiki/FASTQ_format
10 – 1 na 10, 20 – 1 na 100, 30 – 1 na 1000, 40 – 1 na 10000 Magda Mielczarek NGS
9
Dane – pary odczytów (paired-end)
SRR988073_1.fastq SRR988073_2.fastq Magda Mielczarek NGS
10
Dane – pary odczytów (paired-end)
Single –end Paired – end Reference Read 1 Reference Read 1 Read 2 Magda Mielczarek NGS
11
Dane – pary odczytów (paired-end)
Single –end Paired – end Reference Read 1 Reference Read 1 Read 2 Magda Mielczarek NGS
12
FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
Kontrola jakości danych Graficzne przedstawienie sekwencji Tworzenie raportu Brak możliwości filtracji danych Magda Mielczarek NGS
13
Basic statistics Magda Mielczarek NGS
14
Per base sequence quality
Jakość dla każdej pozycji Mediana Wykres pudełkowy Max/min Średnia Ostrzeżenie – niższy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25 Awaria – niższy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20 Length 35bp to 150bp, typically 100bp today Attributes High quality at 5' start, lowers toward 3' end Mediana – wartość środkowa Magda Mielczarek NGS
15
Per sequence quality scores
Średnia jakość sekwencji Ostrzeżenie – najczęściej obserwowane średnia jakość <27 Awaria – najczęściej obserwowane średnia jakość< 20 Magda Mielczarek NGS
16
Per base N content Ostrzeżenie – dowolna pozycja pokazuje zawartość N> 5%. Awaria – dowolna pozycja pokazuje zawartość N> 20%. Magda Mielczarek NGS
17
Sequence Length Distribution
Ostrzeżenie – sekwencje nie są tej samej długości Awaria – którakolwiek sekwencja ma długość 0 Magda Mielczarek NGS
18
Edycja danych Magda Mielczarek NGS
19
Torsten Seemann - Cleaning Illumina reads
Magda Mielczarek NGS
20
PRINSEQ http://prinseq.sourceforge.net/index.html Homopolimey
aactttaaccttttaaaacccccttaaaaaaactttaaaccccgtaaaccccccgggttt ttttttaaaaaaccgttttttacgggggtttaccccgttttaccggggttttgggggttt taaaaaaaacgggttttaaacgggttaacccccgggttttccgggggtttaaaaagtttt Magda Mielczarek NGS
21
PRINSEQ Jakoś satysfakcjonująca - 20
Dopuszczalna długość sekwencji - 60 pz Magda Mielczarek NGS
22
Przyrównanie do genomu referencyjnego
Magda Mielczarek NGS
23
Przyrównanie do sekwencji referencyjnej
złożenie krótkich fragmentów ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT ACTGGGGGGGA GGGAAAAATTTC GGGAACCTTTCT CCTTTCTTTGGA reference read Magda Mielczarek NGS
24
Genom referencyjny - NCBI
Magda Mielczarek NGS
25
Genom referencyjny - format fasta
Adenozyna C Cytozyna G Guanina T Tymina U Uracyl R G A (puRyna) Y T C (pirYmidyna) S G C (Strong) W A T (Weak) B G T C (not A) D G A T (not C) H A C T (not G) V G C A (not T) N A G C T (aNy) Magda Mielczarek NGS
26
Przyrównanie do genomu referencyjnego - software
Bfast BioScope Bowtie BWA CLC bio CloudBurst Eland/Eland2 GenomeMapper GnuMap Karma MAQ MOM Mosaik MrFAST/MrsFAST NovoAlign PASS PerM RazerS RMAP SSAHA2 Segemehl SeqMap SHRiMP Slider/SliderII SOAP/SOAP2 Stampy ZOOM… … i wiele wiele innych Magda Mielczarek NGS
27
Przyrównanie do genomu referencyjnego - algorytmy
Oprogramowanie = formatowanie genomu referencyjnego + przyrównanie do genomu referencyjnego 1. Hash table: „Hash table on the set of input reads” „Hash table on the reference genome” 2. Transformata Burrowsa-Wheelera (BWT) Magda Mielczarek NGS
28
BWA Magda Mielczarek NGS
29
Przykłady programów Name OS Input Output Supported platforms Indexing method Gapped alignment BarraCUDA Lin FASTQ SAM Illumina FM index (BWT) yes BFAST Illumina, ABI SOLiD, 454 Multiple (hash, tree, …) Bowtie Lin, Mac, Win FASTQ, FASTA Illumina, ABI SOLiD no Bowtie2 FASTQ, FASTA, QSEQ Illumina, 454 BWA (CS)FASTQ, FASTA Illumina, ABI SOLiD(1) BWA-SW 454 ELAND - MAQ Maq Hash based Mosaik SAM, BED, several others mrFAST SAM, DIVET mrsFAST Novoalign Lin, Mac FASTQ, (CS)FASTA SAM, TXT SOAP2 SOAP (2) SOAP3 SSAHA2 FASTA SAM, GFF Tree index Stampy YOABS FM & Tree index Tabela2. Programy służące do przyrównania do genomu referencyjnego (Pabinger et.al. 2013) Magda Mielczarek NGS
30
Format SAM Sequence Alignment/Map Format: popularny, uniwersalny
zawiera informacje na temat przyrównania header section alignment section Magda Mielczarek NGS
31
Format BAM Binary Alignment/Map Format:
binarny odpowiednik formatu SAM skompresowany przez BGZF zajmuje mniej pamięci dysku (stanowi ok. 27% oryginalnego pliku w formacie SAM) Magda Mielczarek NGS
32
Poszukiwanie POLIMORFIZMÓW DNA
Magda Mielczarek NGS
33
Poszukiwanie polimorfizmów
SNP – Polimorfizm pojedynczego nukleotydu ACTGACTGACTGCCCGTTCCA ACTGACTCACTGCCCGTTCCG INDEL: insercja delecja ACTGACTGACTGCCCGTTCCA ACTGACTGACTGCCCGTTCC ACTGACTGACTGGCTCCCGTTCCA ACTGA CTGCCCGTTCC Magda Mielczarek NGS
34
Poszukiwanie polimorfizmów – pakiet Samtools
Magda Mielczarek NGS
35
SNP Venn diagrams showing the number of identified variants for tested tools (Pabinger et al. 2013) Magda Mielczarek NGS
36
IGV Magda Mielczarek NGS
37
IGV Magda Mielczarek NGS
38
Automatyzacja pracy Automatyzacja działania programów pozwala na:
skrócenie czasu analiz – równoległe działanie programów oszczędność czasu - uniwersalność skryptów, wykorzystanie dla różnych danych unikanie błędów pracę z ogromnymi zbiorami danych Magda Mielczarek NGS
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.