Poznanie genomu człowieka (wg. artykułów z Science i Nature) Jerzy Tiuryn Instytut Informatyki Uniwersytet Warszawski
Dwa artykuły „Initial sequencing and analysis of the human genome”, International Human Genome Sequencing Consortium, Nature, 15.02, 2001 (860-921). „The sequence of the human genome”, J.C. Venter, et.al., Science, 16.02. 2001 (1304-1351).
Plan wykładu Historia poznania genomu człowieka. Metoda konsorcjum (hierarchiczne sekwencjonowanie metodą ‘shotgun’). Metoda Ventera ‘whole-genome shotgun approach’. Co wiadomo o liczbie genów w genomie człowieka? Porównanie obu metod.
Historia poznania genomu człowieka 1953, James Watson, Francis Crick, : struktura DNA.
1977, F. Sanger (metoda dideoxy), 500-750bp. 1977, F. Sanger: zsekewncjonowanie pierwszego ludzkiego genu. 1977-82, genomy bakteryjnych wirusów (φX174, Lambda), genom wirusa zwierzęcego SV40, ludzkie mitochondrium. 1985, K. Mullis: technika PCR. 1987, D. Burke, M. Olson, G. Carle: YAC. 1989, Olson, Hood, Botstein, Cantor: strategia mapowania przy użyciu STS.
1995, J. C. Venter (Heamophilus influenzae) 1 1995, J.C. Venter (Heamophilus influenzae) 1.8 Mb, metoda ‘whole-genome shotgun sequencing’. 1996, Międzynarodowe konsorcjum (Saccharomyces cerevisiae) 13.5 Mb. 1997, Blattner, Plunkett (Escherichia coli) 5 Mb. 1998, Venter: założenie firmy Celera Genomics (deklaracja: sekwencja genomu człowieka w 3 lata, za 300 M$).
1998, Sulston, Waterson (Caenorhabditis elegans) 100 Mb. 1999, GB, Japonia, USA: chromosom nr.22, 35 Mb. 2000, Venter (Drosophila melanogaster) 120 Mb, testowanie metody WGSS dla niezbyt dużego genomu. 2000, Niemcy, Japonia: chromosom nr. 21, 34 Mb. 2000, Międzynarodowe Konsorcjum (Arabidopsis thaliana), 100 Mb. 2001, HGP i Celera publikują draft genomu człowieka, 3.3Gb.
Główne trudności w sekwencjonowaniu genomu człowieka Rozmiar genomu (~3Gb). Duża część genomu zawiera repetytywne fragmenty. Przykładowo część genomu zawierająca repetytywne fragmenty dla różnych organizmów: Bakterie: ~1.5% Muszka owocowa: ~3% Człowiek: >50%
Metoda Konsorcjum map-based, BAC-based, clone-by-clone Pozyskiwanie materiału genetycznego. Budowa mapy fizycznej genomu w oparciu o klony. Trawienie poszczególnych klonów enzymami restrykcyjnymi – ‘odcisk palca’. Budowa kontigów i przypisanie ich do miejsc na chromosomach (STS). Wybór klonów z kontigów do sekwencjonowania. Sekwencjonowanie metodą ‘shotgun’ wybranych klonów. Składanie genomu.
Pozyskiwanie materiału genetycznego Ochotnicy (różne środowiska etniczne), ‘kto pierwszy ten lepszy’. Samplig laboratory: usunięcie identyfikatorów, nadanie losowych oznaczeń, przesłanie do processing lab. Processing laboratory: usuwa wszystkie oznaczenia i zmienia je na inne, niszczy dokumentację oznaczeń, wybiera losowo 5-10 próbek do dalszej analizy.
Linia produkcyjna do przygotowywania próbek Whitehead Institute, Center for Genome Research
Klony Plazmidy (~ 4Kb). Kosmidy (~ 40Kb). Yeast Artificial Chromosome, YAC (do 500Kb). Bacterial Artificial Chromosome, BAC (100-300Kb).
Mapa fizyczna Biblioteki klonów zbudowane z materiału genetycznego. (1.400.000 klonów BAC lub PAC, 65-krotne pokrycie genomu). Każdy klon rozmiaru 100-200Kb. Wybrano ~ 350.000 klonów do budowy mapy fizycznej. (20 krotne pokrycie genomu). Każdy klon poddano trawieniu enzymem restrykcyjnym i zmierzono rozmiary fragmentów przy pomocy elektroforezy na żelu z agarozy. Tak powstaje linia papilarna (fingerprint) klonu. Linie papilarne są użyte do identyfikacji klonów i do szacowania wielkości nałożenia jednego klonu na drugi.
Mapa fizyczna, c.d. Linie papilarne klonów zostały użyte do budowy tzw. kontigów (nakładające się na siebie spójne fragmenty utworzone z klonów). Kontigi zostały przyporządkowane miejscom na chromosomach przy pomocy znaczników STS (STS = Sequence Tagged Site ~ 500bp, jednoznaczna sekwencja na chromosomie, dla której są znane primery PCR).
Przykład dwóch kontigów
Faza sekwencjonowania Wybór klonów z kontigów, tak aby uzyskać pokrycie genomu (aby przyspieszyć proces, zrezygnowano z poszukiwania minimalnego pokrycia). Wybrano ~ 30.000 klonów.
Faza sekwencjonowania: każdy klon metodą ‘shotgun’ Klon powiela się w wielu kopiach. Wszystkie kopie tnie się na małe kawałki (enzymy restrykcyjne) ‘losowo’. Porządek i orientacja kawałków są tracone. Wybiera się losowo dostatecznie dużo kawałków (5-10 krotne pokrycie, zgodnie z formułą Landera/Watermana) i dla każdego kawałka sekwencjonuje się prefiks o długości ~ 500bp. Powstają tzw. czyste odczyty.
Uwagi na temat metody ‘shotgun’ W praktyce wybór fragmentów nie jest jednorodny (powody molekularno-biologiczne, a nie probabilistyczne). To powoduje powstawanie dziur w odczytywanej sekwencji. Są dwa stopnie jakości metody ‘shotgun’: ‘half-shotgun’ 4-5 krotne pokrycie, w wyniku mamy draft genomu. ‘full-shotgun’ 8-10 krotne pokrycie, w wyniku mamy podstawę do dokładnego opisu genomu.
Uzyskano 23Gb danych w czystych odczytach. Niektóre centra osiągnęły wydajność 100.000 reakcji sekwencjonowania na 12 godzin. Wydajność wszystkich centrów osiągnięta w czerwcu 2000: 1 pokrycie genomu na 6 tygodni (1Kb/sek. przez 24h/dobę, cały czas). Każdy nukleotyd był odczytany średnio 4.5 raza.
7.10.00 w postaci finalnej było 835Mb sekwencji genomu (wliczając chromosomy 21 i 22). Na koniec roku 2000 było ~ 1Gb sekwencji w finalnej postaci (finalna postać = prawdopodobieństwo błędu odczytu nukleotydu < 1/10.000, żadnych dziur)
Składanie sekwencji (1) Analiza nałożeń (overlap detection): dane dwa słowa W,V, znajdź sufiks w W oraz prefiks w V o maksymalnym podobieństwie (w sensie uliniowienia; mogą być wstawiane spacje). Jest to problem natury algorytmicznej. Dane o nałożeniach przechowujemy.
Składanie sekwencji (2) Ułożenie podsłów (substring layout). Zachłanny algorytm: znajdź parę słów o maksymalnym podobieństwie sufiks/prefiks. Później następną parę. Albo powstają dwa kontigi, albo jeden o trzech słowach. Podobne do wielokrotnego uliniowienia. Dodawanie nowych par powoduje wstawianie spacji (rozsuwanie). W ten sposób powstają kontigi nakrywające większość odtwarzanej sekwencji.
Składanie sekwencji (3) Decydowanie konsensusu: uzgodnienie jaka litera ma stać na danej pozycji w kontigu. Stosowane są różne podejścia, często metoda większościowa (tu są subtelne problemy). W projekcie średnie pokrycie klonu kontigami wynosiło 96%, a średnie przerwy pomiędzy kontigami miały ~ 500bp.
Dwa rodzaje kontigów Kontigi pochodzące z jednego klonu. Mega-kontigi pochodzące z analizy linii papilarnych poszczególnych klonów.
Logistyka składania genomu Składanie pojedynczych klonów. Związanie zsekwencjonowanych klonów z pozycjami na fizycznej mapie genomu. Poprawianie niezgodności.
Kroki w procesie składania genomu z kontigów pochodzących z klonów A i B.
Jakość draftu genomu zsekwencjonowanego przez konsorcjum Użyto oprogramowanie PHRAP (program przypisuje każdemu nukleotydowi prawdopodobieństwo błędu). 91% sekwencji ma błąd < 1/10.000. 96% sekwencji ma błąd < 1/1.000 Są przerwy w sekwencji.
Przerwy w sekwencji (3 rodzaje) Pomiędzy kontigami w poszczególnych klonach: łącznie 2-4% genomu jest zawarte w takich przerwach (~80Mb). Tych przerw jest ~145.000. Pomiędzy klonami w mega-kontigach: 5% genomu (~150Mb). Jest ich ~4.000. Pomiędzy mega-kontigami (szacowanie na podstawie chr. 21 i 22) ~4% genomu.
Co wiadomo na temat liczby genów? W małych genomach geny są ściśle związane z ORFami (ORF = Open Reading Frame). U człowieka średnia długość eksonu ~145bp, natomiast introny są długie (średnio ~3300bp, ale zdarzają się introny długości > 10Kb). Przykładowo: introny (średnio) u robaka (267bp), u muchy (487bp).
Geny RNA (nie-kodujące) Takie jak tRNA, rRNA, itd. Nie mają ORFów. Są małe i nie zawierają ogonów poly(A). Trudne do odróżnienia od pseudogenów. Łącznie znaleziono w drafcie ~700 genów RNA.
Przykład Klasyczne (podręcznikowe) oszacowanie liczby genów tRNA u człowieka to 1310, ale ... okazało się, że jest ich w drafcie genomu tylko 497.
Dla innych organizmów liczba genów tRNA wynosi:
Geny kodujące białka Znanych jest obecnie nieco ponad 10.000 sekwencji mRNA w bazie RefSeq (część bazy GenBank). Zrobiono uliniowienie z draftem genomu. Nieco ponad 9.000 dało się (przynajmniej częściowo) uliniowić. 16% sekwencji mRNA wykazało podobieństwo do więcej niż jednego wystąpienia w drafcie genomu (paralogi, pseudogeny).
Geny kodujące białka (rozmiary) Duży rozrzut w rozmiarach genów (eksony i introny) człowieka. Wiele jest dłuższych niż 100Kb (rekordzista: gen dystrofiny (DMD) ma 2.4Mb. Długość kodującej sekwencji też podlega dużym wahaniom. Np. gen titiny (najdłuższa obecnie znana długość kodującej sekwencji) ma 80.780bp, liczba eksonów 178, najdłuższy ekson 17.106bp.
Trudności w znajdowaniu genów w genomie człowieka Mały iloraz sygnał/szum w genach człowieka w związku z krótkimi eksonami i bardzo długimi intronami. Ponadto kodujące sekwencje stanowią bardzo małą część genomu. Tak nie jest w drożdżach, robaku i muszce. Znając nawet dokładnie genom (tak jak to jest dla chr. 21 i 22) nadal będzie bardzo trudno odkrywać geny ‘ab initio’ .
Przewidywanie liczby genów (1) W latach 80-tych Gilbert zasugerował, że może być ~100.000 genów w genomie człowieka. Jest to tzw. rachunek ‘back-of-the-envelope’ Typowy gen ma rozmiar ~30.000bp, rozmiar genomu jest ~3Gb, więc otrzymujemy ~100.000 genów. Analiza na podstawie szacunku liczby wysp CpG oraz częstości związków z genami dała ~70.000-80.000 genów.
Przewidywanie liczby genów (2) Szacunki oparte o EST (EST = Expressed Sequence Tags) dawały rozrzut liczby genów w granicach 35.000-120.000.
Obecnie stosowane metody znajdowania genów Wystąpienie znanego EST lub mRNA. Sekwencyjne podobieństwo do znanych genów lub białek. Ab initio metoda oparta na ukrytych modelach Markowa (HMM) – używają one statystycznej informacji na temat miejsc splicingu, kodowego odchylenia (coding bias), długości eksonów i intronów (Genscan, Genie, FGENES).
Skuteczność metod ab initio Szacuje się, że dla muchy pojedyncze eksony mogą być odgadywane poprawnie z prawdopodobieństwem 90%, ale wszystkie eksony danego genu tylko z prawdopodobieństwem 40%. Dla człowieka podobne liczby wynoszą: 70% i 20%. Niektórzy uważają też, że w/w liczby są zbyt optymistyczne...
Initial Gene Index (IGI) System Ensembl (używa Genscan, weryfikuje w oparciu o podobieństwo do białek, mRNA, EST i białkowych motywów (zawarte w bazie Pfam) dla wszystkich organizmów). System ten wygenerował 35.000 predykcji genów oraz 44.860 transkryptów. Po wykonaniu pewnej redukcji fragmentacji otrzymano 31.778 predykcji genów. To stanowi podstawę do pierwszej wersji IGI.
Initial Gene Index (IGI) W IGI jest 15.000 znanych genów i 17.000 predykcji nowych genów. Przyjmuje się, że bardziej realna liczba genów w IGI to 24.500 genów (20% błędnych predykcji lub pseudogenów, 1.4 współczynnik fragmentacji). Przyjmując, że predykcje genów zawierają 60% wcześniej nieznanych genów, można oszacować łączną liczbę genów człowieka na ~31.000.
Końcowe uwagi na temat liczby genów człowieka Obecne szacunki liczby genów oparte na próbkowaniu dają przedział 30.000-35.000. Jeśli w genomie człowieka jest 30.000-35.000 genów i średnia długość kodującej sekwencji wynosi 1.400bp oraz średnia długość całego genu wynosi 30Kb, to 1.5% całego genomu zajmują sekwencje kodujące, a 30% zajmują geny.
Końcowe uwagi na temat liczby genów człowieka Wydaje się, że człowiek ma dwa razy więcej genów niż robak lub mucha. Geny człowieka są bardziej rozciągnięte po genomie i są one używane do budowy większej liczby alternatywnych transkryptów. Łącznie, być może, człowiek wytwarza 5 razy więcej białkowych produktów niż robak czy mucha.
Jaka jest naprawdę liczba genów u człowieka ...? Michael Zhang ze współpracownikami (Cold Spring Harbour Laboratory): opracowali program First Exon Finder (grudzień 2001, Nature Genetics). Program ten wyszukuje odcinki zawierające nie-kodujące pierwsze eksony oraz sekwencje promotorowe genów. Program poprawnie zlokalizował 90% genów w zsekwencjonowanych chromosomach 21 i 22. First Exon Finder wytypował 68,000 genów w genomie człowieka. Autorzy szacują, że całkowita liczba genów w genomie człowieka waha się w granicach 50,000-60,000. Co będzie dalej ... ?
Metoda firmy Celera Genomics sekwencjonowania genomu
Plan Kontigi i rusztowania. Dwie strategie asemblacji genomu (WGA, CSA). Poszukiwanie genów. Analiza genomu. Porównanie sekwencji Konsorcjum i Celery.
Celera 3,000 m.kw. 175,000 reakcji sekwencjonowania na dzień. Wirtualna Farma Obliczeniowa (Compaq Alpha): 440 CPU (EV6 (400MHz), EV67(667MHz)). Każdy 2-8GB RAM. 100TB HD.
Dane do obróbki Biblioteka plazmidów (rozmiarów 2Kb, 10Kb, 50Kb). Konstrukcja stowarzyszonych par (mate pairs) – sekwencje 500-600bp, z każdego końca sekwencji z biblioteki plazmidów (27.27 milionów odczytów). Kontigi zbudowane z BAC’ów dostępnych z publicznych danych Konsorcjum (4.4Gb).
Kontigi, rusztowania i stowarzyszone pary
Dwie strategie asemblacji genomu Whole-genome assembly (WGA). Compartmentalized shotgun assembly (CSA).
Asemblacja WGA Analiza nakryć (overlaps) – 10,000h czasu CPU, 40 komputerów (4-procesorowy Alpha), 4GB RAM każdy. Równoległość. Wybór jednoznacznych kontigów (unitigi) – 73.6% genomu. Wykorzystanie par stowarzyszonych do budowy rusztowań (scaffolds). Uzupełnianie dziur w rusztowaniach (fazy ‘rocks’ oraz ‘stones’).
Asemblacja CSA (Matcher): Rozdzielenie danych Celery na te, które pasują do BAC’ów z danych publicznych i na resztę (21 milionów odczytów pasowało, a 3 miliony były nowe).
Asemblacja CSA, c.d. (Combining Assembler): Dla tych z pierwszej grupy, dla każdego BAC’a wzięto kontigi z HGP oraz pasujące odczyty Celery. Użyto WGA do zbudowania rusztowań (zwykle 1 lub 2) pokrywających w ~95% ten BAC. Asemblacja wysokiej jakości.
Asemblacja CSA, c.d. (WGA): Dla drugiej grupy (nowe dane) przeprowadzono WGA. (Tiler): Analiza porządku i nakryć dla rusztowań pochodzących z BAC’ów i z rusztowań zbudowanych dla nowych danych. Użyto: pary stowarzyszone dla klonów 50Kb i dla BAC’ów oraz markery STS. Powstało w ten sposób 3845 składowych (components) obejmujących ~2.92Gb.
Asemblacja CSA, c.d. (WGA+Shredder): Dla każdej ze składowych zastosowano WGA, po poszatkowaniu danych na kawałki. Dzięki poszatkowaniu możliwa była dodatkowa korekta błędów oraz eliminacja fragmentów chimerycznych z danych HGP.
Ostatni krok: Mapowanie rusztowań do genomu Do dalszej obróbki wybrano dane otrzymane z CSA. Wykorzystano dwie mapy fizyczne genomu: mapa markerów STS oraz mapa linii papilarnych BAC’ów. W ten sposób większość rusztowań została przyporządkowna pozycjom w genomie (~98% genomu). Powstało ~21,600 przerw pomiędzy rusztowaniami.
Analiza genomu (wg. Celery) Poszukiwanie genów. Wstępny opis chromosomów. Korelacja gęstości genów z innymi wielkościami. Rozkład genów wg. molekularnej funkcji. Duplikacje genomu w skali makro.
Poszukiwanie genów System ekspercki Otto - symulacja czynności wykonywanych przez człowieka opisującego chromosomy. Otto wykrył 6538 genów homologicznych do znanych genów oraz 11,226 nowych fragmentów podejrzanych o bycie genem. Łącznie: 17,764 geny.
Poszukiwanie genów, c.d. Oprócz Otto użyto trzech programów odgadujących geny: GRAIL, Genescan, FgenesH. Zrobiły one łącznie 76,410 różnych predykcji, z czego 57,935 predykcji nie pokrywało się z predykcjami Otto. Dodatkowy filtr: co najmniej jedno potwierdzenie z następującej listy.
Cztery typy potwierdzeń dla predykcji genów Homologia ze znanym białkiem. Zawieranie ludzkiego EST. Zawieranie EST gryzonia. Występowanie w genomie myszy.
Ile jest genów? Biorąc wszystkie predykcje Otto oraz predykcje w/w trzech programów spełniające dodatkowo warunek: Co najmniej 1 potwierdzenie: 39,114 genów Co najmniej 2 potwierdzenia: 26,383 geny. Co najmniej 3 potwierdzenia: ~23,000 genów.
Wstępny opis Celery chromosomów Chr. X Chr. Y
Chromosomy 11, 12, 13: Korelacja gęstości genów Z innymi wielkościami
Rozkład 26,383 genów wg. molekularnej funkcji
Duplikacje względem chromosomu 1
Duplikacje względem chromosomu 6
Duplikacje względem chromosomu 19 – rekordowo dużo
Duplikacje względem chromosomu 22 – rekordowo mało
Porównanie sekwencji HGP i Celery Praca: J. Aach, et.al. „Computational comparison of two draft sequences of the human genome.”, Nature, 409, 15.02.2001, (856-859). HGP-nr (2.9Gb). Cel Celera Genomics (Human Genome D, 2.9Gb).
Porównania wykonane przez Celerę Zielony kolor: sekwencje Celery są w tej samej orientacji i kolejności w obu sekwencjach. Żółty kolor: sekwencje Celery są w tej samej orientacji, ale nie w tej samej kolejności w obu sekwencjach. Czerwony kolor: sekwencje Celery nie są w tej samej orientacji w obu sekwencjach.
Porównania wykonane przez Celerę, c.d. Górna część wykresu – Konsorcjum (2K, 10K, 50K). Dolna – Celera (2K, 10K, 50K). Seledynowe kreski – przerwa co najmniej 10.000b. Stowarzyszone pary (niezgodności): Czerwony – zła orientacja. Żółty – zła odległość pomiędzy końcami. Niebieskie kreski – złamania (breakpoint)
Porównanie dla chromosomu 21
Porównanie dla chromosomu 22
Porównanie dla chromosomu 19
Porównanie dla chromosomu 8
Przerwy i złamania w obu sekwencjach Górna cześć – Konsorcjum. Dolna część – Celera. Czerwona kreska – przerwa co najmniej 10Kb. Niebieska kreska – złamanie (breakpoint): sprzeczność z co najmniej 5 stowarzyszonymi parami.