Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Podstawy bioinformatyki – sekwencjonowanie nowej generacji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu.

Podobne prezentacje


Prezentacja na temat: "Podstawy bioinformatyki – sekwencjonowanie nowej generacji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu."— Zapis prezentacji:

1 Podstawy bioinformatyki – sekwencjonowanie nowej generacji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

2 Rozwój technologii i przyrost danych Wzrost olbrzymiej ilości i objętości surowych danych  potrzeba gromadzenia danych  potrzeba stworzenia skomplikowanych procedur komputerowych do zarządzania danymi 1 osobnik Dane NGS w Katedrze Genetyki: 200 buhajów 32 krowy Magda Mielczarek2NGS

3 DANE NGS The second-generation machines are characterized by highly parallel operation, higher yield, simpler operation, much lower cost per read, and (unfortunately) shorter reads. Today’s machines are commonly referred to as short-read sequencers or next-generation sequencers (NGS) though their successors may be on the horizon (Miller 2010). Sekwenatory pierwszej generacji : 500 – 1000 bp Sekwenatory drugiej generacji:  454 Roche 400 – 700 bp  Illumina 100 bp (35 – 150 bp )  SOLiD 100 bp Krótsze odczyty:  mniej informacji  ich składanie wymaga większego pokrycia genomu Magda Mielczarek3NGS

4 Pokrycie genomu Magda MielczarekNGS4 wysokie pokrycieniskie pokrycie Krótkie Sekwencje Genom referencyjny

5 Baza danych NCBI - Sequence Read Archive Magda MielczarekNGS5

6 Dane - format fastq Magda MielczarekNGS6 SRR988073_1.fastq SRR988073_2.fastq

7 Dane - format fastq 1. Nazwa sekwencji 2. Sekwencja 3. Separator 4. Jakość sekwencji (uwaga na kodowanie!) Magda MielczarekNGS 1 odczyt (read) 7

8 Kodowanie jakości Magda MielczarekNGS 8

9 Dane – pary odczytów (paired-end) Magda MielczarekNGS9 SRR988073_1.fastq SRR988073_2.fastq

10 Dane – pary odczytów (paired-end) Single –end Paired – end Magda MielczarekNGS10 Reference Read 1 Reference Read 1 Read 2

11 Dane – pary odczytów (paired-end) Single –end Paired – end Magda MielczarekNGS11 Reference Read 1 Reference Read 1 Read 2

12 FastQC Magda MielczarekNGS12  Kontrola jakości danych  Graficzne przedstawienie sekwencji  Tworzenie raportu  Brak możliwości filtracji danych  Kontrola jakości danych  Graficzne przedstawienie sekwencji  Tworzenie raportu  Brak możliwości filtracji danych

13 Basic statistics NGSMagda Mielczarek13

14 Per base sequence quality Jakość dla każdej pozycji Mediana Wykres pudełkowy Max/min Średnia Ostrzeżenie – niższy kwartyl dla jakiejkolwiek pozycji <10 lub mediana <25 Awaria – niższy kwartyl dla jakiejkolwiek pozycji <5 lub mediana <20 Magda Mielczarek Length  35bp to 150bp, typically 100bp today Attributes  High quality at 5' start, lowers toward 3' end 14NGS

15 Per sequence quality scores Średnia jakość sekwencji Ostrzeżenie – najczęściej obserwowane średnia jakość <27 Awaria – najczęściej obserwowane średnia jakość< 20 Magda Mielczarek15NGS

16 Per base N content Ostrzeżenie – dowolna pozycja pokazuje zawartość N> 5%. Awaria – dowolna pozycja pokazuje zawartość N> 20%. Magda Mielczarek16NGS

17 Sequence Length Distribution Ostrzeżenie – sekwencje nie są tej samej długości Awaria – którakolwiek sekwencja ma długość 0 Magda Mielczarek17NGS

18 EDYCJA DANYCH Magda MielczarekNGS18

19 Torsten Seemann - Cleaning Illumina reads Magda Mielczarek19NGS

20 PRINSEQ Magda MielczarekNGS20

21 PRINSEQ Jakoś satysfakcjonująca - 20 Dopuszczalna długość sekwencji - 60 pz Magda Mielczarek21NGS

22 PRZYRÓWNANIE DO GENOMU REFERENCYJNEGO Magda MielczarekNGS22

23 Przyrównanie do sekwencji referencyjnej NGS23  złożenie krótkich fragmentów ACTGGGGGGGAAAAATTTCAAAGGGAACCTTTCTTTGGAGGGTT ACTGGGGGGGA GGGAAAAATTTC GGGAACCTTTCT CCTTTCTTTGGA reference read Magda Mielczarek

24 Genom referencyjny - NCBI Magda Mielczarek24NGS

25 Genom referencyjny - format fasta 25Magda MielczarekNGS A A denozyna C C ytozyna G G uanina T T ymina U U racyl RG A (pu R yna) YT C (pir Y midyna) SG C (Strong) WA T (Weak) BG T C (not A) DG A T (not C) HA C T (not G) VG C A (not T) NA G C T (a N y)

26 Przyrównanie do genomu referencyjnego - software Bfast BioScope Bowtie BWA CLC bio CloudBurst Eland/Eland2 GenomeMapper GnuMap Karma MAQ MOM Mosaik MrFAST/MrsFAST NovoAlign PASS PerM RazerS RMAP SSAHA2 Segemehl SeqMap SHRiMP Slider/SliderII SOAP/SOAP2 Stampy ZOOM… … i wiele wiele innych Magda Mielczarek26NGS

27 Przyrównanie do genomu referencyjnego - algorytmy 1. Hash table: „Hash table on the set of input reads” „Hash table on the reference genome” 2. Transformata Burrowsa-Wheelera (BWT) Magda MielczarekNGS27 Oprogramowanie = formatowanie genomu referencyjnego + przyrównanie do genomu referencyjnego

28 BWA Magda MielczarekNGS28

29 Magda MielczarekNGS29 NameOSInputOutputSupported platformsIndexing methodGapped alignment BarraCUDALinFASTQSAMIlluminaFM index (BWT)yes BFASTLinFASTQSAMIllumina, ABI SOLiD, 454 Multiple (hash, tree, …) yes BowtieLin, Mac, WinFASTQ, FASTASAMIllumina, ABI SOLiDFM index (BWT)no Bowtie2Lin, Mac, WinFASTQ, FASTA, QSEQ SAMIllumina, 454FM index (BWT)yes BWALin(CS)FASTQ, FASTASAMIllumina, ABI SOLiD(1) FM index (BWT)yes BWA-SWLinFASTQ, FASTASAM454FM index (BWT)yes ELANDLinFASTQ, FASTASAMIllumina-no MAQLinFASTQ, FASTAMaqIlluminaHash basedyes MosaikLin, Mac, WinFASTQ, FASTASAM, BED, several others Illumina, ABI SOLiD, 454 -yes mrFASTLinFASTQ, FASTASAM, DIVETIlluminaHash basedyes mrsFASTLinFASTQ, FASTASAM, DIVETIlluminaHash basedno NovoalignLin, MacFASTQ, (CS)FASTASAM, TXTIllumina, ABI SOLiD-yes SOAP2LinFASTQ, FASTASOAP (2)IlluminaFM index (BWT)yes SOAP3LinFASTQ, FASTASAMIlluminaFM index (BWT)no SSAHA2Lin, MacFASTASAM, GFFIllumina, ABI SOLiD, 454 Tree indexyes StampyLin, MacFASTQ, FASTASAMIllumina, 454FM index (BWT)- YOABSLin--IlluminaFM & Tree indexyes Przykłady programów Tabela2. Programy służące do przyrównania do genomu referencyjnego (Pabinger et.al. 2013)

30 Format SAM Sequence Alignment/Map Format: popularny, uniwersalny zawiera informacje na temat przyrównania Magda MielczarekNGS30 header section alignment section

31 Format BAM Binary Alignment/Map Format: binarny odpowiednik formatu SAM skompresowany przez BGZF zajmuje mniej pamięci dysku (stanowi ok. 27% oryginalnego pliku w formacie SAM) Magda MielczarekNGS31

32 POSZUKIWANIE POLIMORFIZMÓW DNA Magda MielczarekNGS32

33 Poszukiwanie polimorfizmów SNP – Polimorfizm pojedynczego nukleotydu ACTGACTGACTGCCCGTTCCA ACTGACTCACTGCCCGTTCCG INDEL: insercja delecja ACTGACTGACTGCCCGTTCCA ACTGACTGACTGCCCGTTCC ACTGACTGACTGGCTCCCGTTCCAACTGA CTGCCCGTTCC Magda MielczarekNGS33

34 Poszukiwanie polimorfizmów – pakiet Samtools Magda MielczarekNGS34

35 SNP Magda MielczarekNGS35 Venn diagrams showing the number of identified variants for tested tools (Pabinger et al. 2013)

36 IGV 36 Magda MielczarekNGS

37 IGV Magda Mielczarek37NGS

38 Automatyzacja pracy Automatyzacja działania programów pozwala na: skrócenie czasu analiz – równoległe działanie programów oszczędność czasu - uniwersalność skryptów, wykorzystanie dla różnych danych unikanie błędów pracę z ogromnymi zbiorami danych Magda MielczarekNGS38


Pobierz ppt "Podstawy bioinformatyki – sekwencjonowanie nowej generacji Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu."

Podobne prezentacje


Reklamy Google