Poznanie genomu człowieka (wg. artykułów z Science i Nature)

Slides:

Advertisements

Podobne prezentacje

Opinie Polaków na temat usług szpitalnych

Advertisements

Klasyfikacja roczna w roku szkolnym 2012/2013

Joanna Sawicka Wydział Nauk Ekonomicznych, Uniwersytet Warszawski

Informacja o stanie bezpieczeństwa i porządku publicznego za rok 2008 w powiecie nidzickim Nidzica, r.

Wprowadzenie do informatyki Wykład 6

POWIAT MYŚLENICKI Tytuł Projektu: Poprawa płynności ruchu w centrum Myślenic poprzez przebudowę skrzyżowań dróg powiatowych K 1935 i K 1967na rondo.

Ludwik Antal - Numeryczna analiza pól elektromagnetycznych –W10

Liczby pierwsze.

Domy Na Wodzie - metoda na wlasne M

ZNACZENIE ZDROWIA PSYCHICZNEGO DLA EFEKTYWNOŚCI PRACOWNIKA

Podatki i opłaty lokalne w 2010 roku

NOWE TECHNOLOGIE NA USŁUGACH EDUKACJI Publiczna Szkoła Podstawowa nr 3 w Grodkowie Zajęcia w ramach projektu NTUE.

UŁAMKI DZIESIĘTNE porównywanie, dodawanie i odejmowanie.

Typy zachowań firmy w procesie internacjonalizacji (projekt badawczy)

PREPARATYWNA CHROMATOGRAFIA CIECZOWA.

Prezentacja poziomu rozwoju gmin, które nie korzystały z FS w 2006 roku. Eugeniusz Sobczak Politechnika Warszawska KNS i A Wykorzystanie Funduszy.

Fundusze nieruchomości jako inwestycja z celem zdobycia kapitału emerytalnego Karolina Oleszek.

Co nas interesuje? Czy w danym fragmencie DNA jest jakiś gen?

BIOSTATYSTYKA I METODY DOKUMENTACJI

Wykład 4 Rozkład próbkowy dla średniej z rozkładu normalnego

Wykład 3 Rozkład próbkowy dla średniej z rozkładu normalnego

Proces analizy i rozpoznawania

Lupinus angustifolius

Wzory ułatwiające obliczenia

Średnie i miary zmienności

Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- V Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat a.

Klamki do drzwi Klamki okienne i inne akcesoria

Opracował: Zespół Humanistyczny. Klasa Średnia ww - wielokrotnego wyboru (na 20 p) Średnia KO - krótkie odpowiedzi (na 10 p) Średnia za zaproszenie (na.

JO16-75 Dane techniczne: Wysokość-130 Płaszczyzna dolna-90

Matura 2005 Wyniki Jarosław Drzeżdżon Matura 2005 V LO w Gdańsku

WYNIKI SPRAWDZIANU SZÓSTOKLASISTY 2010 DLA SZKOŁY.

Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień

Agnieszka Jankowicz-Szymańska1, Wiesław Wojtanowski1,2

Wyrażenia algebraiczne

„Rynek pracy w powiecie trzebnickim: struktura bezrobocia i miejsca pracy.”

VI przegląd plastyczny z rysunku, malarstwa i rzeźby

EGZAMIN GIMNAZJALNY W SUWAŁKACH 2009 Liczba uczniów przystępująca do egzaminu gimnazjalnego w 2009r. Lp.GimnazjumLiczba uczniów 1Gimnazjum Nr 1 w Zespole.

Poznań, 16 maja Charakterystyka populacji Liczba szkół Uczniowie, którzy przystąpili do egzaminu Łącznie A1+A4+A5A6A7A8 lubuskie

w ramach projektu Szkoła z Klasą 2.0

1. Pomyśl sobie liczbę dwucyfrową (Na przykład: 62)

1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)

Analiza matury 2013 Opracowała Bernardeta Wójtowicz.

Podstawy statystyki, cz. II

Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.

Spływ należności w Branży Elektrycznej

Wstępna analiza egzaminu gimnazjalnego.

EGZAMINU GIMNAZJALNEGO 2013

EcoCondens Kompakt BBK 7-22 E.

EcoCondens BBS 2,9-28 E.

Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.

User experience studio Użyteczna biblioteka Teraźniejszość i przyszłość informacji naukowej.

WYNIKI EGZAMINU MATURALNEGO W ZESPOLE SZKÓŁ TECHNICZNYCH

Komenda Powiatowa Policji

EGZAMIN GIMNAZJALNY Charakterystyka wyników osiągniętych przez uczniów.

Obliczalność czyli co da się policzyć i jak Model obliczeń sieci liczące dr Kamila Barylska.

Testogranie TESTOGRANIE Bogdana Berezy.

Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VI Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat a.

Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +

© GfK 2014 | GfK Health | Leki homeopatzcyne widziane okiem lekarzy 1 LEKI HOMEOPATYCZNE WIDZIANE OKIEM LEKARZY Czerwiec 2014.

Nowy Jork Londyn Mleko, (1l) 0,81£ 0,94 £ Bochenek świeżego chleba (500g) 1,78 £ 0,96 £ Ryż (biały), (1kg) 2,01 £ 1,51 £ Jajka(12) 1,86 £ 2,27 £ Lokalny.

Dr hab. Renata Babińska- Górecka

Wnioskowanie statystyczne

1 Używanie alkoholu i narkotyków przez młodzież szkolną w województwie opolskim w 2007 r. Na podstawie badań przeprowadzonych przez PBS DGA (w pełni porównywalnych.

Współrzędnościowe maszyny pomiarowe

ANKIETA ZOSTAŁA PRZEPROWADZONA WŚRÓD UCZNIÓW GIMNAZJUM ZPO W BORONOWIE.

Ankieta dotycząca kart bankomatowych i kont bankowych.

Elementy geometryczne i relacje

Strategia pomiaru.

LO ŁobżenicaWojewództwoPowiat pilski 2011r.75,81%75,29%65,1% 2012r.92,98%80,19%72,26% 2013r.89,29%80,49%74,37% 2014r.76,47%69,89%63,58% ZDAWALNOŚĆ.

Jaki jest statystyczny wrześnianin?

Zapis prezentacji:

Poznanie genomu człowieka (wg. artykułów z Science i Nature) Jerzy Tiuryn Instytut Informatyki Uniwersytet Warszawski

Dwa artykuły „Initial sequencing and analysis of the human genome”, International Human Genome Sequencing Consortium, Nature, 15.02, 2001 (860-921). „The sequence of the human genome”, J.C. Venter, et.al., Science, 16.02. 2001 (1304-1351).

Plan wykładu Historia poznania genomu człowieka. Metoda konsorcjum (hierarchiczne sekwencjonowanie metodą ‘shotgun’). Metoda Ventera ‘whole-genome shotgun approach’. Co wiadomo o liczbie genów w genomie człowieka? Porównanie obu metod.

Historia poznania genomu człowieka 1953, James Watson, Francis Crick, : struktura DNA.

1977, F. Sanger (metoda dideoxy), 500-750bp. 1977, F. Sanger: zsekewncjonowanie pierwszego ludzkiego genu. 1977-82, genomy bakteryjnych wirusów (φX174, Lambda), genom wirusa zwierzęcego SV40, ludzkie mitochondrium. 1985, K. Mullis: technika PCR. 1987, D. Burke, M. Olson, G. Carle: YAC. 1989, Olson, Hood, Botstein, Cantor: strategia mapowania przy użyciu STS.

1995, J. C. Venter (Heamophilus influenzae) 1 1995, J.C. Venter (Heamophilus influenzae) 1.8 Mb, metoda ‘whole-genome shotgun sequencing’. 1996, Międzynarodowe konsorcjum (Saccharomyces cerevisiae) 13.5 Mb. 1997, Blattner, Plunkett (Escherichia coli) 5 Mb. 1998, Venter: założenie firmy Celera Genomics (deklaracja: sekwencja genomu człowieka w 3 lata, za 300 M$).

1998, Sulston, Waterson (Caenorhabditis elegans) 100 Mb. 1999, GB, Japonia, USA: chromosom nr.22, 35 Mb. 2000, Venter (Drosophila melanogaster) 120 Mb, testowanie metody WGSS dla niezbyt dużego genomu. 2000, Niemcy, Japonia: chromosom nr. 21, 34 Mb. 2000, Międzynarodowe Konsorcjum (Arabidopsis thaliana), 100 Mb. 2001, HGP i Celera publikują draft genomu człowieka, 3.3Gb.

Główne trudności w sekwencjonowaniu genomu człowieka Rozmiar genomu (~3Gb). Duża część genomu zawiera repetytywne fragmenty. Przykładowo część genomu zawierająca repetytywne fragmenty dla różnych organizmów: Bakterie: ~1.5% Muszka owocowa: ~3% Człowiek: >50%

Metoda Konsorcjum map-based, BAC-based, clone-by-clone Pozyskiwanie materiału genetycznego. Budowa mapy fizycznej genomu w oparciu o klony. Trawienie poszczególnych klonów enzymami restrykcyjnymi – ‘odcisk palca’. Budowa kontigów i przypisanie ich do miejsc na chromosomach (STS). Wybór klonów z kontigów do sekwencjonowania. Sekwencjonowanie metodą ‘shotgun’ wybranych klonów. Składanie genomu.

Pozyskiwanie materiału genetycznego Ochotnicy (różne środowiska etniczne), ‘kto pierwszy ten lepszy’. Samplig laboratory: usunięcie identyfikatorów, nadanie losowych oznaczeń, przesłanie do processing lab. Processing laboratory: usuwa wszystkie oznaczenia i zmienia je na inne, niszczy dokumentację oznaczeń, wybiera losowo 5-10 próbek do dalszej analizy.

Linia produkcyjna do przygotowywania próbek Whitehead Institute, Center for Genome Research

Klony Plazmidy (~ 4Kb). Kosmidy (~ 40Kb). Yeast Artificial Chromosome, YAC (do 500Kb). Bacterial Artificial Chromosome, BAC (100-300Kb).

Mapa fizyczna Biblioteki klonów zbudowane z materiału genetycznego. (1.400.000 klonów BAC lub PAC, 65-krotne pokrycie genomu). Każdy klon rozmiaru 100-200Kb. Wybrano ~ 350.000 klonów do budowy mapy fizycznej. (20 krotne pokrycie genomu). Każdy klon poddano trawieniu enzymem restrykcyjnym i zmierzono rozmiary fragmentów przy pomocy elektroforezy na żelu z agarozy. Tak powstaje linia papilarna (fingerprint) klonu. Linie papilarne są użyte do identyfikacji klonów i do szacowania wielkości nałożenia jednego klonu na drugi.

Mapa fizyczna, c.d. Linie papilarne klonów zostały użyte do budowy tzw. kontigów (nakładające się na siebie spójne fragmenty utworzone z klonów). Kontigi zostały przyporządkowane miejscom na chromosomach przy pomocy znaczników STS (STS = Sequence Tagged Site ~ 500bp, jednoznaczna sekwencja na chromosomie, dla której są znane primery PCR).

Przykład dwóch kontigów

Faza sekwencjonowania Wybór klonów z kontigów, tak aby uzyskać pokrycie genomu (aby przyspieszyć proces, zrezygnowano z poszukiwania minimalnego pokrycia). Wybrano ~ 30.000 klonów.

Faza sekwencjonowania: każdy klon metodą ‘shotgun’ Klon powiela się w wielu kopiach. Wszystkie kopie tnie się na małe kawałki (enzymy restrykcyjne) ‘losowo’. Porządek i orientacja kawałków są tracone. Wybiera się losowo dostatecznie dużo kawałków (5-10 krotne pokrycie, zgodnie z formułą Landera/Watermana) i dla każdego kawałka sekwencjonuje się prefiks o długości ~ 500bp. Powstają tzw. czyste odczyty.

Uwagi na temat metody ‘shotgun’ W praktyce wybór fragmentów nie jest jednorodny (powody molekularno-biologiczne, a nie probabilistyczne). To powoduje powstawanie dziur w odczytywanej sekwencji. Są dwa stopnie jakości metody ‘shotgun’: ‘half-shotgun’ 4-5 krotne pokrycie, w wyniku mamy draft genomu. ‘full-shotgun’ 8-10 krotne pokrycie, w wyniku mamy podstawę do dokładnego opisu genomu.

Uzyskano 23Gb danych w czystych odczytach. Niektóre centra osiągnęły wydajność 100.000 reakcji sekwencjonowania na 12 godzin. Wydajność wszystkich centrów osiągnięta w czerwcu 2000: 1 pokrycie genomu na 6 tygodni (1Kb/sek. przez 24h/dobę, cały czas). Każdy nukleotyd był odczytany średnio 4.5 raza.

7.10.00 w postaci finalnej było 835Mb sekwencji genomu (wliczając chromosomy 21 i 22). Na koniec roku 2000 było ~ 1Gb sekwencji w finalnej postaci (finalna postać = prawdopodobieństwo błędu odczytu nukleotydu < 1/10.000, żadnych dziur)

Składanie sekwencji (1) Analiza nałożeń (overlap detection): dane dwa słowa W,V, znajdź sufiks w W oraz prefiks w V o maksymalnym podobieństwie (w sensie uliniowienia; mogą być wstawiane spacje). Jest to problem natury algorytmicznej. Dane o nałożeniach przechowujemy.

Składanie sekwencji (2) Ułożenie podsłów (substring layout). Zachłanny algorytm: znajdź parę słów o maksymalnym podobieństwie sufiks/prefiks. Później następną parę. Albo powstają dwa kontigi, albo jeden o trzech słowach. Podobne do wielokrotnego uliniowienia. Dodawanie nowych par powoduje wstawianie spacji (rozsuwanie). W ten sposób powstają kontigi nakrywające większość odtwarzanej sekwencji.

Składanie sekwencji (3) Decydowanie konsensusu: uzgodnienie jaka litera ma stać na danej pozycji w kontigu. Stosowane są różne podejścia, często metoda większościowa (tu są subtelne problemy). W projekcie średnie pokrycie klonu kontigami wynosiło 96%, a średnie przerwy pomiędzy kontigami miały ~ 500bp.

Dwa rodzaje kontigów Kontigi pochodzące z jednego klonu. Mega-kontigi pochodzące z analizy linii papilarnych poszczególnych klonów.

Logistyka składania genomu Składanie pojedynczych klonów. Związanie zsekwencjonowanych klonów z pozycjami na fizycznej mapie genomu. Poprawianie niezgodności.

Kroki w procesie składania genomu z kontigów pochodzących z klonów A i B.

Jakość draftu genomu zsekwencjonowanego przez konsorcjum Użyto oprogramowanie PHRAP (program przypisuje każdemu nukleotydowi prawdopodobieństwo błędu). 91% sekwencji ma błąd < 1/10.000. 96% sekwencji ma błąd < 1/1.000 Są przerwy w sekwencji.

Przerwy w sekwencji (3 rodzaje) Pomiędzy kontigami w poszczególnych klonach: łącznie 2-4% genomu jest zawarte w takich przerwach (~80Mb). Tych przerw jest ~145.000. Pomiędzy klonami w mega-kontigach: 5% genomu (~150Mb). Jest ich ~4.000. Pomiędzy mega-kontigami (szacowanie na podstawie chr. 21 i 22) ~4% genomu.

Co wiadomo na temat liczby genów? W małych genomach geny są ściśle związane z ORFami (ORF = Open Reading Frame). U człowieka średnia długość eksonu ~145bp, natomiast introny są długie (średnio ~3300bp, ale zdarzają się introny długości > 10Kb). Przykładowo: introny (średnio) u robaka (267bp), u muchy (487bp).

Geny RNA (nie-kodujące) Takie jak tRNA, rRNA, itd. Nie mają ORFów. Są małe i nie zawierają ogonów poly(A). Trudne do odróżnienia od pseudogenów. Łącznie znaleziono w drafcie ~700 genów RNA.

Przykład Klasyczne (podręcznikowe) oszacowanie liczby genów tRNA u człowieka to 1310, ale ... okazało się, że jest ich w drafcie genomu tylko 497.

Dla innych organizmów liczba genów tRNA wynosi:

Geny kodujące białka Znanych jest obecnie nieco ponad 10.000 sekwencji mRNA w bazie RefSeq (część bazy GenBank). Zrobiono uliniowienie z draftem genomu. Nieco ponad 9.000 dało się (przynajmniej częściowo) uliniowić. 16% sekwencji mRNA wykazało podobieństwo do więcej niż jednego wystąpienia w drafcie genomu (paralogi, pseudogeny).

Geny kodujące białka (rozmiary) Duży rozrzut w rozmiarach genów (eksony i introny) człowieka. Wiele jest dłuższych niż 100Kb (rekordzista: gen dystrofiny (DMD) ma 2.4Mb. Długość kodującej sekwencji też podlega dużym wahaniom. Np. gen titiny (najdłuższa obecnie znana długość kodującej sekwencji) ma 80.780bp, liczba eksonów 178, najdłuższy ekson 17.106bp.

Trudności w znajdowaniu genów w genomie człowieka Mały iloraz sygnał/szum w genach człowieka w związku z krótkimi eksonami i bardzo długimi intronami. Ponadto kodujące sekwencje stanowią bardzo małą część genomu. Tak nie jest w drożdżach, robaku i muszce. Znając nawet dokładnie genom (tak jak to jest dla chr. 21 i 22) nadal będzie bardzo trudno odkrywać geny ‘ab initio’ .

Przewidywanie liczby genów (1) W latach 80-tych Gilbert zasugerował, że może być ~100.000 genów w genomie człowieka. Jest to tzw. rachunek ‘back-of-the-envelope’ Typowy gen ma rozmiar ~30.000bp, rozmiar genomu jest ~3Gb, więc otrzymujemy ~100.000 genów. Analiza na podstawie szacunku liczby wysp CpG oraz częstości związków z genami dała ~70.000-80.000 genów.

Przewidywanie liczby genów (2) Szacunki oparte o EST (EST = Expressed Sequence Tags) dawały rozrzut liczby genów w granicach 35.000-120.000.

Obecnie stosowane metody znajdowania genów Wystąpienie znanego EST lub mRNA. Sekwencyjne podobieństwo do znanych genów lub białek. Ab initio metoda oparta na ukrytych modelach Markowa (HMM) – używają one statystycznej informacji na temat miejsc splicingu, kodowego odchylenia (coding bias), długości eksonów i intronów (Genscan, Genie, FGENES).

Skuteczność metod ab initio Szacuje się, że dla muchy pojedyncze eksony mogą być odgadywane poprawnie z prawdopodobieństwem 90%, ale wszystkie eksony danego genu tylko z prawdopodobieństwem 40%. Dla człowieka podobne liczby wynoszą: 70% i 20%. Niektórzy uważają też, że w/w liczby są zbyt optymistyczne...

Initial Gene Index (IGI) System Ensembl (używa Genscan, weryfikuje w oparciu o podobieństwo do białek, mRNA, EST i białkowych motywów (zawarte w bazie Pfam) dla wszystkich organizmów). System ten wygenerował 35.000 predykcji genów oraz 44.860 transkryptów. Po wykonaniu pewnej redukcji fragmentacji otrzymano 31.778 predykcji genów. To stanowi podstawę do pierwszej wersji IGI.

Initial Gene Index (IGI) W IGI jest 15.000 znanych genów i 17.000 predykcji nowych genów. Przyjmuje się, że bardziej realna liczba genów w IGI to 24.500 genów (20% błędnych predykcji lub pseudogenów, 1.4 współczynnik fragmentacji). Przyjmując, że predykcje genów zawierają 60% wcześniej nieznanych genów, można oszacować łączną liczbę genów człowieka na ~31.000.

Końcowe uwagi na temat liczby genów człowieka Obecne szacunki liczby genów oparte na próbkowaniu dają przedział 30.000-35.000. Jeśli w genomie człowieka jest 30.000-35.000 genów i średnia długość kodującej sekwencji wynosi 1.400bp oraz średnia długość całego genu wynosi 30Kb, to 1.5% całego genomu zajmują sekwencje kodujące, a 30% zajmują geny.

Końcowe uwagi na temat liczby genów człowieka Wydaje się, że człowiek ma dwa razy więcej genów niż robak lub mucha. Geny człowieka są bardziej rozciągnięte po genomie i są one używane do budowy większej liczby alternatywnych transkryptów. Łącznie, być może, człowiek wytwarza 5 razy więcej białkowych produktów niż robak czy mucha.

Jaka jest naprawdę liczba genów u człowieka ...? Michael Zhang ze współpracownikami (Cold Spring Harbour Laboratory): opracowali program First Exon Finder (grudzień 2001, Nature Genetics). Program ten wyszukuje odcinki zawierające nie-kodujące pierwsze eksony oraz sekwencje promotorowe genów. Program poprawnie zlokalizował 90% genów w zsekwencjonowanych chromosomach 21 i 22. First Exon Finder wytypował 68,000 genów w genomie człowieka. Autorzy szacują, że całkowita liczba genów w genomie człowieka waha się w granicach 50,000-60,000. Co będzie dalej ... ?

Metoda firmy Celera Genomics sekwencjonowania genomu

Plan Kontigi i rusztowania. Dwie strategie asemblacji genomu (WGA, CSA). Poszukiwanie genów. Analiza genomu. Porównanie sekwencji Konsorcjum i Celery.

Celera 3,000 m.kw. 175,000 reakcji sekwencjonowania na dzień. Wirtualna Farma Obliczeniowa (Compaq Alpha): 440 CPU (EV6 (400MHz), EV67(667MHz)). Każdy 2-8GB RAM. 100TB HD.

Dane do obróbki Biblioteka plazmidów (rozmiarów 2Kb, 10Kb, 50Kb). Konstrukcja stowarzyszonych par (mate pairs) – sekwencje 500-600bp, z każdego końca sekwencji z biblioteki plazmidów (27.27 milionów odczytów). Kontigi zbudowane z BAC’ów dostępnych z publicznych danych Konsorcjum (4.4Gb).

Kontigi, rusztowania i stowarzyszone pary

Dwie strategie asemblacji genomu Whole-genome assembly (WGA). Compartmentalized shotgun assembly (CSA).

Asemblacja WGA Analiza nakryć (overlaps) – 10,000h czasu CPU, 40 komputerów (4-procesorowy Alpha), 4GB RAM każdy. Równoległość. Wybór jednoznacznych kontigów (unitigi) – 73.6% genomu. Wykorzystanie par stowarzyszonych do budowy rusztowań (scaffolds). Uzupełnianie dziur w rusztowaniach (fazy ‘rocks’ oraz ‘stones’).

Asemblacja CSA (Matcher): Rozdzielenie danych Celery na te, które pasują do BAC’ów z danych publicznych i na resztę (21 milionów odczytów pasowało, a 3 miliony były nowe).

Asemblacja CSA, c.d. (Combining Assembler): Dla tych z pierwszej grupy, dla każdego BAC’a wzięto kontigi z HGP oraz pasujące odczyty Celery. Użyto WGA do zbudowania rusztowań (zwykle 1 lub 2) pokrywających w ~95% ten BAC. Asemblacja wysokiej jakości.

Asemblacja CSA, c.d. (WGA): Dla drugiej grupy (nowe dane) przeprowadzono WGA. (Tiler): Analiza porządku i nakryć dla rusztowań pochodzących z BAC’ów i z rusztowań zbudowanych dla nowych danych. Użyto: pary stowarzyszone dla klonów 50Kb i dla BAC’ów oraz markery STS. Powstało w ten sposób 3845 składowych (components) obejmujących ~2.92Gb.

Asemblacja CSA, c.d. (WGA+Shredder): Dla każdej ze składowych zastosowano WGA, po poszatkowaniu danych na kawałki. Dzięki poszatkowaniu możliwa była dodatkowa korekta błędów oraz eliminacja fragmentów chimerycznych z danych HGP.

Ostatni krok: Mapowanie rusztowań do genomu Do dalszej obróbki wybrano dane otrzymane z CSA. Wykorzystano dwie mapy fizyczne genomu: mapa markerów STS oraz mapa linii papilarnych BAC’ów. W ten sposób większość rusztowań została przyporządkowna pozycjom w genomie (~98% genomu). Powstało ~21,600 przerw pomiędzy rusztowaniami.

Analiza genomu (wg. Celery) Poszukiwanie genów. Wstępny opis chromosomów. Korelacja gęstości genów z innymi wielkościami. Rozkład genów wg. molekularnej funkcji. Duplikacje genomu w skali makro.

Poszukiwanie genów System ekspercki Otto - symulacja czynności wykonywanych przez człowieka opisującego chromosomy. Otto wykrył 6538 genów homologicznych do znanych genów oraz 11,226 nowych fragmentów podejrzanych o bycie genem. Łącznie: 17,764 geny.

Poszukiwanie genów, c.d. Oprócz Otto użyto trzech programów odgadujących geny: GRAIL, Genescan, FgenesH. Zrobiły one łącznie 76,410 różnych predykcji, z czego 57,935 predykcji nie pokrywało się z predykcjami Otto. Dodatkowy filtr: co najmniej jedno potwierdzenie z następującej listy.

Cztery typy potwierdzeń dla predykcji genów Homologia ze znanym białkiem. Zawieranie ludzkiego EST. Zawieranie EST gryzonia. Występowanie w genomie myszy.

Ile jest genów? Biorąc wszystkie predykcje Otto oraz predykcje w/w trzech programów spełniające dodatkowo warunek: Co najmniej 1 potwierdzenie: 39,114 genów Co najmniej 2 potwierdzenia: 26,383 geny. Co najmniej 3 potwierdzenia: ~23,000 genów.

Wstępny opis Celery chromosomów Chr. X Chr. Y

Chromosomy 11, 12, 13: Korelacja gęstości genów Z innymi wielkościami

Rozkład 26,383 genów wg. molekularnej funkcji

Duplikacje względem chromosomu 1

Duplikacje względem chromosomu 6

Duplikacje względem chromosomu 19 – rekordowo dużo

Duplikacje względem chromosomu 22 – rekordowo mało

Porównanie sekwencji HGP i Celery Praca: J. Aach, et.al. „Computational comparison of two draft sequences of the human genome.”, Nature, 409, 15.02.2001, (856-859). HGP-nr (2.9Gb). Cel Celera Genomics (Human Genome D, 2.9Gb).

Porównania wykonane przez Celerę Zielony kolor: sekwencje Celery są w tej samej orientacji i kolejności w obu sekwencjach. Żółty kolor: sekwencje Celery są w tej samej orientacji, ale nie w tej samej kolejności w obu sekwencjach. Czerwony kolor: sekwencje Celery nie są w tej samej orientacji w obu sekwencjach.

Porównania wykonane przez Celerę, c.d. Górna część wykresu – Konsorcjum (2K, 10K, 50K). Dolna – Celera (2K, 10K, 50K). Seledynowe kreski – przerwa co najmniej 10.000b. Stowarzyszone pary (niezgodności): Czerwony – zła orientacja. Żółty – zła odległość pomiędzy końcami. Niebieskie kreski – złamania (breakpoint)

Porównanie dla chromosomu 21

Porównanie dla chromosomu 22

Porównanie dla chromosomu 19

Porównanie dla chromosomu 8

Przerwy i złamania w obu sekwencjach Górna cześć – Konsorcjum. Dolna część – Celera. Czerwona kreska – przerwa co najmniej 10Kb. Niebieska kreska – złamanie (breakpoint): sprzeczność z co najmniej 5 stowarzyszonymi parami.