Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Podstawy bioinformatyki – sekwencjonowanie nowej generacji

Podobne prezentacje


Prezentacja na temat: "Podstawy bioinformatyki – sekwencjonowanie nowej generacji"— Zapis prezentacji:

1 Podstawy bioinformatyki – sekwencjonowanie nowej generacji
Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

2 Rozwój technologii i przyrost danych
Wzrost olbrzymiej ilości i objętości surowych danych  potrzeba gromadzenia danych  potrzeba stworzenia skomplikowanych procedur komputerowych do zarządzania danymi 1 osobnik 1 kilo = 1000, 1 mega = 1mln, 1 giga = mld. Użyteczność technologii następnej generacji była znacząco poprawiona dzięki postępowi w dziedzinie bioinformatyki, która pozwoliła na zwiększenie magazynowania danych oraz analizy i ułatwione manipulowanie dużych zbiorów danych, często w zakresie gigabase (1 gigabase = par zasad DNA). Dane NGS w Katedrze Genetyki: 200 buhajów 32 krowy Magda Mielczarek NGS

3 DANE NGS The second-generation machines are characterized by highly parallel operation, higher yield, simpler operation, much lower cost per read, and (unfortunately) shorter reads. Today’s machines are commonly referred to as short-read sequencers or next-generation sequencers (NGS) though their successors may be on the horizon (Miller 2010). Sekwenatory pierwszej generacji : 500 – 1000 bp Sekwenatory drugiej generacji: 454 Roche 400 – 700 bp Illumina 100 bp (35 – 150 bp ) SOLiD 100 bp Krótsze odczyty: mniej informacji ich składanie wymaga większego pokrycia genomu Magda Mielczarek NGS

4 Pokrycie genomu wysokie pokrycie niskie pokrycie Krótkie Sekwencje
referencyjny Magda Mielczarek NGS

5 Baza danych NCBI - Sequence Read Archive
Magda Mielczarek NGS

6 Dane - format fastq SRR988073_1.fastq SRR988073_2.fastq
Magda Mielczarek NGS

7 Dane - format fastq 1. Nazwa sekwencji 2. Sekwencja 3. Separator 4. Jakość sekwencji (uwaga na kodowanie!) 1 odczyt (read) Magda Mielczarek NGS

8 Kodowanie jakości http://en.wikipedia.org/wiki/FASTQ_format
10 – 1 na 10, 20 – 1 na 100, 30 – 1 na 1000, 40 – 1 na 10000 Magda Mielczarek NGS

9 Dane – pary odczytów (paired-end)
SRR988073_1.fastq SRR988073_2.fastq Magda Mielczarek NGS

10 Dane – pary odczytów (paired-end)
Single –end Paired – end Reference Read 1 Reference Read 1 Read 2 Magda Mielczarek NGS

11 Dane – pary odczytów (paired-end)
Single –end Paired – end Reference Read 1 Reference Read 1 Read 2 Magda Mielczarek NGS

12 FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
 Kontrola jakości danych Graficzne przedstawienie sekwencji Tworzenie raportu Brak możliwości filtracji danych Magda Mielczarek NGS

13 Basic statistics Magda Mielczarek NGS

14 Per base sequence quality
Jakość dla każdej pozycji Mediana Wykres pudełkowy Max/min Średnia Ostrzeżenie – niższy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25 Awaria – niższy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20 Length  35bp to 150bp, typically 100bp today Attributes  High quality at 5' start, lowers toward 3' end Mediana – wartość środkowa Magda Mielczarek NGS

15 Per sequence quality scores
Średnia jakość sekwencji Ostrzeżenie – najczęściej obserwowane średnia jakość <27 Awaria – najczęściej obserwowane średnia jakość< 20 Magda Mielczarek NGS

16 Per base N content Ostrzeżenie – dowolna pozycja pokazuje zawartość N> 5%. Awaria – dowolna pozycja pokazuje zawartość N> 20%. Magda Mielczarek NGS

17 Sequence Length Distribution
Ostrzeżenie – sekwencje nie są tej samej długości Awaria – którakolwiek sekwencja ma długość 0 Magda Mielczarek NGS

18 Edycja danych Magda Mielczarek NGS

19 Torsten Seemann - Cleaning Illumina reads
Magda Mielczarek NGS

20 PRINSEQ http://prinseq.sourceforge.net/index.html Homopolimey
aactttaaccttttaaaacccccttaaaaaaactttaaaccccgtaaaccccccgggttt ttttttaaaaaaccgttttttacgggggtttaccccgttttaccggggttttgggggttt taaaaaaaacgggttttaaacgggttaacccccgggttttccgggggtttaaaaagtttt Magda Mielczarek NGS

21 PRINSEQ Jakoś satysfakcjonująca - 20
Dopuszczalna długość sekwencji - 60 pz Magda Mielczarek NGS

22 Przyrównanie do genomu referencyjnego
Magda Mielczarek NGS

23 Przyrównanie do sekwencji referencyjnej
 złożenie krótkich fragmentów ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT ACTGGGGGGGA GGGAAAAATTTC GGGAACCTTTCT CCTTTCTTTGGA reference read Magda Mielczarek NGS

24 Genom referencyjny - NCBI
Magda Mielczarek NGS

25 Genom referencyjny - format fasta
Adenozyna C Cytozyna G Guanina T Tymina U Uracyl R G A (puRyna) Y T C (pirYmidyna) S G C (Strong) W A T (Weak) B G T C (not A) D G A T (not C) H A C T (not G) V G C A (not T) N A G C T (aNy) Magda Mielczarek NGS

26 Przyrównanie do genomu referencyjnego - software
Bfast BioScope Bowtie BWA CLC bio CloudBurst Eland/Eland2 GenomeMapper GnuMap Karma MAQ MOM Mosaik MrFAST/MrsFAST NovoAlign PASS PerM RazerS RMAP SSAHA2 Segemehl SeqMap SHRiMP Slider/SliderII SOAP/SOAP2 Stampy ZOOM… … i wiele wiele innych Magda Mielczarek NGS

27 Przyrównanie do genomu referencyjnego - algorytmy
Oprogramowanie = formatowanie genomu referencyjnego + przyrównanie do genomu referencyjnego 1. Hash table: „Hash table on the set of input reads” „Hash table on the reference genome” 2. Transformata Burrowsa-Wheelera (BWT) Magda Mielczarek NGS

28 BWA Magda Mielczarek NGS

29 Przykłady programów Name OS Input Output Supported platforms Indexing method Gapped alignment BarraCUDA Lin FASTQ SAM Illumina FM index (BWT) yes BFAST Illumina, ABI SOLiD, 454 Multiple (hash, tree, …) Bowtie Lin, Mac, Win FASTQ, FASTA Illumina, ABI SOLiD no Bowtie2 FASTQ, FASTA, QSEQ Illumina, 454 BWA (CS)FASTQ, FASTA Illumina, ABI SOLiD(1) BWA-SW 454 ELAND - MAQ Maq Hash based Mosaik SAM, BED, several others mrFAST SAM, DIVET mrsFAST Novoalign Lin, Mac FASTQ, (CS)FASTA SAM, TXT SOAP2 SOAP (2) SOAP3 SSAHA2 FASTA SAM, GFF Tree index Stampy YOABS FM & Tree index Tabela2. Programy służące do przyrównania do genomu referencyjnego (Pabinger et.al. 2013) Magda Mielczarek NGS

30 Format SAM Sequence Alignment/Map Format: popularny, uniwersalny
zawiera informacje na temat przyrównania header section alignment section Magda Mielczarek NGS

31 Format BAM Binary Alignment/Map Format:
binarny odpowiednik formatu SAM skompresowany przez BGZF zajmuje mniej pamięci dysku (stanowi ok. 27% oryginalnego pliku w formacie SAM) Magda Mielczarek NGS

32 Poszukiwanie POLIMORFIZMÓW DNA
Magda Mielczarek NGS

33 Poszukiwanie polimorfizmów
SNP – Polimorfizm pojedynczego nukleotydu ACTGACTGACTGCCCGTTCCA ACTGACTCACTGCCCGTTCCG INDEL: insercja delecja ACTGACTGACTGCCCGTTCCA ACTGACTGACTGCCCGTTCC ACTGACTGACTGGCTCCCGTTCCA ACTGA CTGCCCGTTCC Magda Mielczarek NGS

34 Poszukiwanie polimorfizmów – pakiet Samtools
Magda Mielczarek NGS

35 SNP Venn diagrams showing the number of identified variants for tested tools (Pabinger et al. 2013) Magda Mielczarek NGS

36 IGV Magda Mielczarek NGS

37 IGV Magda Mielczarek NGS

38 Automatyzacja pracy Automatyzacja działania programów pozwala na:
skrócenie czasu analiz – równoległe działanie programów oszczędność czasu - uniwersalność skryptów, wykorzystanie dla różnych danych unikanie błędów pracę z ogromnymi zbiorami danych Magda Mielczarek NGS


Pobierz ppt "Podstawy bioinformatyki – sekwencjonowanie nowej generacji"

Podobne prezentacje


Reklamy Google