Podstawy bioinformatyki – sekwencjonowanie nowej generacji

Name: Podstawy bioinformatyki – sekwencjonowanie nowej generacji
Uploaded: 2017-12-09T11:20:40+00:00
Duration: PTM14S46
Channel: Malwina Hoffmann
Description: Podstawy bioinformatyki – sekwencjonowanie nowej generacji

Podstawy bioinformatyki – sekwencjonowanie nowej generacji
Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Rozwój technologii i przyrost danych
Wzrost olbrzymiej ilości i objętości surowych danych  potrzeba gromadzenia danych  potrzeba stworzenia skomplikowanych procedur komputerowych do zarządzania danymi 1 osobnik 1 kilo = 1000, 1 mega = 1mln, 1 giga = mld. Użyteczność technologii następnej generacji była znacząco poprawiona dzięki postępowi w dziedzinie bioinformatyki, która pozwoliła na zwiększenie magazynowania danych oraz analizy i ułatwione manipulowanie dużych zbiorów danych, często w zakresie gigabase (1 gigabase = par zasad DNA). Dane NGS w Katedrze Genetyki: 200 buhajów 32 krowy Magda Mielczarek NGS

DANE NGS The second-generation machines are characterized by highly parallel operation, higher yield, simpler operation, much lower cost per read, and (unfortunately) shorter reads. Today’s machines are commonly referred to as short-read sequencers or next-generation sequencers (NGS) though their successors may be on the horizon (Miller 2010). Sekwenatory pierwszej generacji : 500 – 1000 bp Sekwenatory drugiej generacji: 454 Roche 400 – 700 bp Illumina 100 bp (35 – 150 bp ) SOLiD 100 bp Krótsze odczyty: mniej informacji ich składanie wymaga większego pokrycia genomu Magda Mielczarek NGS

Pokrycie genomu wysokie pokrycie niskie pokrycie Krótkie Sekwencje
referencyjny Magda Mielczarek NGS

Baza danych NCBI - Sequence Read Archive
Magda Mielczarek NGS

Dane - format fastq SRR988073_1.fastq SRR988073_2.fastq

Dane - format fastq 1. Nazwa sekwencji 2. Sekwencja 3. Separator 4. Jakość sekwencji (uwaga na kodowanie!) 1 odczyt (read) Magda Mielczarek NGS

Kodowanie jakości http://en.wikipedia.org/wiki/FASTQ_format
10 – 1 na 10, 20 – 1 na 100, 30 – 1 na 1000, 40 – 1 na 10000 Magda Mielczarek NGS

Dane – pary odczytów (paired-end)
SRR988073_1.fastq SRR988073_2.fastq Magda Mielczarek NGS

Dane – pary odczytów (paired-end)
Single –end Paired – end Reference Read 1 Reference Read 1 Read 2 Magda Mielczarek NGS

FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
 Kontrola jakości danych Graficzne przedstawienie sekwencji Tworzenie raportu Brak możliwości filtracji danych Magda Mielczarek NGS

Basic statistics Magda Mielczarek NGS

Per base sequence quality
Jakość dla każdej pozycji Mediana Wykres pudełkowy Max/min Średnia Ostrzeżenie – niższy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25 Awaria – niższy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20 Length  35bp to 150bp, typically 100bp today Attributes  High quality at 5' start, lowers toward 3' end Mediana – wartość środkowa Magda Mielczarek NGS

Per sequence quality scores
Średnia jakość sekwencji Ostrzeżenie – najczęściej obserwowane średnia jakość <27 Awaria – najczęściej obserwowane średnia jakość< 20 Magda Mielczarek NGS

Per base N content Ostrzeżenie – dowolna pozycja pokazuje zawartość N> 5%. Awaria – dowolna pozycja pokazuje zawartość N> 20%. Magda Mielczarek NGS

Sequence Length Distribution
Ostrzeżenie – sekwencje nie są tej samej długości Awaria – którakolwiek sekwencja ma długość 0 Magda Mielczarek NGS

Edycja danych Magda Mielczarek NGS

Torsten Seemann - Cleaning Illumina reads

PRINSEQ http://prinseq.sourceforge.net/index.html Homopolimey
aactttaaccttttaaaacccccttaaaaaaactttaaaccccgtaaaccccccgggttt ttttttaaaaaaccgttttttacgggggtttaccccgttttaccggggttttgggggttt taaaaaaaacgggttttaaacgggttaacccccgggttttccgggggtttaaaaagtttt Magda Mielczarek NGS

PRINSEQ Jakoś satysfakcjonująca - 20
Dopuszczalna długość sekwencji - 60 pz Magda Mielczarek NGS

Przyrównanie do genomu referencyjnego

Przyrównanie do sekwencji referencyjnej
 złożenie krótkich fragmentów ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT ACTGGGGGGGA GGGAAAAATTTC GGGAACCTTTCT CCTTTCTTTGGA reference read Magda Mielczarek NGS

Genom referencyjny - NCBI

Genom referencyjny - format fasta
Adenozyna C Cytozyna G Guanina T Tymina U Uracyl R G A (puRyna) Y T C (pirYmidyna) S G C (Strong) W A T (Weak) B G T C (not A) D G A T (not C) H A C T (not G) V G C A (not T) N A G C T (aNy) Magda Mielczarek NGS

Przyrównanie do genomu referencyjnego - software
Bfast BioScope Bowtie BWA CLC bio CloudBurst Eland/Eland2 GenomeMapper GnuMap Karma MAQ MOM Mosaik MrFAST/MrsFAST NovoAlign PASS PerM RazerS RMAP SSAHA2 Segemehl SeqMap SHRiMP Slider/SliderII SOAP/SOAP2 Stampy ZOOM… … i wiele wiele innych Magda Mielczarek NGS

Przyrównanie do genomu referencyjnego - algorytmy
Oprogramowanie = formatowanie genomu referencyjnego + przyrównanie do genomu referencyjnego 1. Hash table: „Hash table on the set of input reads” „Hash table on the reference genome” 2. Transformata Burrowsa-Wheelera (BWT) Magda Mielczarek NGS

BWA Magda Mielczarek NGS

Przykłady programów Name OS Input Output Supported platforms Indexing method Gapped alignment BarraCUDA Lin FASTQ SAM Illumina FM index (BWT) yes BFAST Illumina, ABI SOLiD, 454 Multiple (hash, tree, …) Bowtie Lin, Mac, Win FASTQ, FASTA Illumina, ABI SOLiD no Bowtie2 FASTQ, FASTA, QSEQ Illumina, 454 BWA (CS)FASTQ, FASTA Illumina, ABI SOLiD(1) BWA-SW 454 ELAND - MAQ Maq Hash based Mosaik SAM, BED, several others mrFAST SAM, DIVET mrsFAST Novoalign Lin, Mac FASTQ, (CS)FASTA SAM, TXT SOAP2 SOAP (2) SOAP3 SSAHA2 FASTA SAM, GFF Tree index Stampy YOABS FM & Tree index Tabela2. Programy służące do przyrównania do genomu referencyjnego (Pabinger et.al. 2013) Magda Mielczarek NGS

Format SAM Sequence Alignment/Map Format: popularny, uniwersalny
zawiera informacje na temat przyrównania header section alignment section Magda Mielczarek NGS

Format BAM Binary Alignment/Map Format:
binarny odpowiednik formatu SAM skompresowany przez BGZF zajmuje mniej pamięci dysku (stanowi ok. 27% oryginalnego pliku w formacie SAM) Magda Mielczarek NGS

Poszukiwanie POLIMORFIZMÓW DNA

Poszukiwanie polimorfizmów
SNP – Polimorfizm pojedynczego nukleotydu ACTGACTGACTGCCCGTTCCA ACTGACTCACTGCCCGTTCCG INDEL: insercja delecja ACTGACTGACTGCCCGTTCCA ACTGACTGACTGCCCGTTCC ACTGACTGACTGGCTCCCGTTCCA ACTGA CTGCCCGTTCC Magda Mielczarek NGS

Poszukiwanie polimorfizmów – pakiet Samtools

SNP Venn diagrams showing the number of identified variants for tested tools (Pabinger et al. 2013) Magda Mielczarek NGS

IGV Magda Mielczarek NGS

Automatyzacja pracy Automatyzacja działania programów pozwala na:
skrócenie czasu analiz – równoległe działanie programów oszczędność czasu - uniwersalność skryptów, wykorzystanie dla różnych danych unikanie błędów pracę z ogromnymi zbiorami danych Magda Mielczarek NGS

Podstawy bioinformatyki – sekwencjonowanie nowej generacji

Podobne prezentacje

Prezentacja na temat: "Podstawy bioinformatyki – sekwencjonowanie nowej generacji"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

Podstawy bioinformatyki – sekwencjonowanie nowej generacji

Podobne prezentacje

Prezentacja na temat: "Podstawy bioinformatyki – sekwencjonowanie nowej generacji"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres