Matematyk bada regulację genów Winfried Just Department of Mathematics Ohio University
Nowy mikroskop i nowa fizyka W 2004 ukazał się w PLoS Biology artykuł Joel E. Cohena pt. Mathematics Is Biology's Next Microscope, Only Better; Biology Is Mathematics' Next Physics, Only Better. Czyżby? Czym się różni ten nowy mikroskop od dobrze nam znanych? Jak się nim posługiwać? I dlaczego matematycy zaczęli się poważnie interesować biologią?
Więcej dobrych wiadomości NSF i NIH ostatnio przeznaczają duże dotacje na biomatematyke. Np. w 2002 powstał Mathematical Biosciences Institute, pierwszy i dotąd jedyny instytut NSFu specjalizujący się wyłącznie w zastosowaniach matematyki do jednej dziedziny. Powstały niedawno również inne instytuty biomatematyczne, sfinansowane ze środków prywatnych. Powstaje sporo nowych czasopism specjalizujących się w biomatematyce. Rynek pracy jest bardzo korzystny dla biomatematyków szukających zatrudnienie, bądź na uczelniach, bądź w przemyśle, zwłaszcza w przemyśle farmaceutycznym.
Skąd ten trend? I dlaczego obserwujemy ten rozwój teraz, a nie 30 lat temu, lub za 30 lat? Składają się na to dwa główne powody: Współczesne badania biologiczne dostarczają olbrzymią ilość danych. Wyciąganie znaczących wniosków biologicznych z tych danych wymaga analizy za pomocą komputerów, opartej na odpowiednich modelach matematycznych. Zatem matematyka stała się narzędziem niezbędnym. Obecne komputery pozwalają nam na badanie modeli matematycznych dostatecznie rozbudowanych by wyciągać realistyczne wnioski. Matematyka stała się narzędziem pożytecznym.
Przykład zbioru danych: Genbank Pierwszy genom wirusa został opublikowany w latach 80-tych, pierwszy genom bakterii H. influenzae, 1.83 · 106 bp, w 1995, pierwszy genom organizmu wielokomórkowego C. elegans, 108 bp, w 1998. Szkic naszego genomu, H. sapiens, π · 109 bp, został ogłoszony w czerwcu 2000. W lutym 2008 Genbank zawierał 85 759 586 764 bp informacji. Jak z tej ilości informacji wyciągnąć konkretne wnioski?
Gdzie są geny? Popatrzmy np. na własny genom. Informacja o nim jest zapisana w Genbank jako długi ciąg π · 109 liter: ...actggtacctgtatatggacgctccatatttaatgcgcgatgcaggatctaaa... Mniej niż 1,5% tego ciągu koduje białka. Jak znaleźć te geny? Oczywiście żaden człowiek nie może przeczytać tego ciągu. Komputer robi to z łatwością. Więc może komputer nam powie w jakim miejscu zaczyna się gen, a gdzie się kończy? Ale co właściwie ten komputer ma policzyć?
Kasyno Poczciwego Craiga Jest to kasyno w stanie Nevada gdzie się gra w ruletkę 64-liczbową. W każdej rundzie gracz stawia żetony na trzy z tych 64 liczb. Jeśli kulka wpada na jedną z tych trzech wybranych liczb, poczciwy Craig wypłaca odpowiednią sumę. Jeśli nie, gracz traci swoje żetony. Łatwo policzyć że przeciętny czas oczekiwania na pierwszą wygraną wynosi 64/3 = 21,33 rundek.
Prawdopodobieństwo długich czasów oczekiwania Załóżmy że Craig jest taki poczciwy jak twierdzi. Wtedy prawdopodobieństwo P(k) że nasz gracz ciągle przegrywa przez pierwsze k rund wynosi (61/64)k. W szczególności, zaczynając od k = 50 otrzymujemy prawdopodobieństwa: P(50) = 0,0907 P(51) = 0,0864 P(52) = 0,0824 P(53) = 0,0785 P(54) = 0,0748 P(55) = 0,0713 P(56) = 0,0680 P(57) = 0,0648 P(58) = 0,0618 P(59) = 0,0589 P(60) = 0,0561 P(61) = 0,0535 P(62) = 0,0510 P(63) = 0,0486 P(64) = 0,0463 P(65) = 0,0441 P(66) = 0,0421 P(67) = 0,0401 P(68) = 0,0382 P(69) = 0,0364 P(100) = 0,0082 P(200) = 0,000064 P(300) = 0,00000055
Trochę terminologii statystycznej Załóżenie, że Craig jest taki poczciwy jak twierdzi jest naszą hipotezą zerową. Podejrzenie, że jednak oszukuje jest hipotezą alternatywną. Hipotezę zerową należy odrzucić jeśli ona implikuje że prawdopodobieństwo obserwowanych wartości jest poniżej poziomu istotności, który się w nauce na ogół przyjmuje jako 0.05. Błedne oskarżenie poczciwego Craiga o oszustwo byłoby błędem pierwszego rodzaju, podczas gdy ufanie mu kiedy naprawdę oszukuje byłoby błędem drugiego rodzaju.
Laboratorium Craiga Ventera W 1995 zespół Craiga Ventera sekwencjonował genom bakterii H. influenzae. W celu odkrywania pozycji 1740 kodujących białka genów w tym ciągu 1 830 140 par zasad DNA można rozumować tak: W bakteriach prawie cały genom koduje białka. Zaczynajmy od pozycji n i odczytujmy literki trójkami: (n, n+1, n+2), (n+3, n+4, n+5), … Jeśli jesteśmy we właściwym reading frame, to daje nam to sekwencję kodonów kończącą się kodonem STOP, czyli TAA, TGA, lub TAG; taki kodon STOP występuje przeciętnie raz na ok. 300 trójek. Jeśli jesteśmy w jednym z pięciu niewłaściwych reading frames, to czytamy galimatius, czyli ciąg mniej więcej losowy, i jedna z trójek TAA, TGA, TAG powinna występować przeciętnie raz na 64/3 = 21.33 pozycji. Skąd my to znamy?
To ten sam problem! Z drobnymi modyfikacjami: Hipotezą zerową teraz będzie że czytamy w niewłaściwym reading frame, hipotezą alternatywną będzie że czytamy ciąg kodujący w poprawnym reading frame. Jeśli przez kolejne 63 trójki nie spotykamy kodonu STOP, to możemy hipotezę zerową odrzucić na poziomie istotności 0.05 i uznać, że znaleźliśmy gen kodujący białko, którego koniec już łatwo ustalić. Trochę trudniej znaleźć początek genu, gdyż ATG jest zarówno kodonem START i kodonem na metioninę, a promotor też jest częścią genu. Ale ten promotor się na ogół zaczyna kilka pozycji od końca poprzedniego genu. Co prawda “galimatius” w niewłaściwych reading frames nie jest zupełnie losowy i pozostaje jeszcze problem znalezienia genów kodujących RNA i genów kodujących bardzo krótkie białka, ale w zasadzie to podejście pracuje.
Laboratorium Craiga Ventera w roku 2000 Ale teraz popatrzmy na genom eukariota, H. Sapiens: Geny kodujące białka stanowią tylko drobną część naszego genomu. Ciągi kodujące, czyli egzony, są przeplatane intronami. Dany kodon może być przecięty intronem. Egzony nie muszą występować w tym samym reading frame. Introny wyglądają raczej jak ciągi losowe. Więc mamy dużo trudniejszy problem. Istnieją w tej chwili dość dobre algorytmy znajdujące geny w eukariotach, ale: Żaden algorytm przystosowany do prokariotów nie będzie tu pracował.
Wnioski z tej historyjki Matematyka jest świetnym narzędziem do dostrzegania wspólnej strutury w pozornie zupełnie różnych problemach. Model matematyczny może pomóc w sformułowania hipotezy, często w postaci prawdopodobieństwa. Ostateczna interpretacja tej hipotezy i jej potwierdzenie za pomocą eksperymentu należy do biologa. Matematycy mają tendencje do mówienia o zawiłych teoriach w swoim żargonie zamiast dać proste i konkretne odpowiedzi. Kluczem do skutecznej współpracy jest znalezienie wspólnego języka. “Mikroskopy matematyczne” często przychodzą bez instrukcji obslugi. By skutecznie używać matematyczne narzędzia w biologii trzeba w pewnym stopniu rozumieć, jak one pracują. Wybór odpowiedniego miskroskopu często wymaga aktywnej wspólpracy między biologami i matematykami.
Znaleźliśmy gen. Co on robi? Białka o podobnej sekwenji aminokwasów często ewoluowały ze wspólnego przodka. Białka ze wspólnym przodkiem często spełniają podobną rolę w organiźmie. Wiec jeśli odkryliśmy nowe białko, to możemy sformułować dobrą hipotezę o jego funkcji na podstawie znanych funkcji białek o podobnej sekwencji. Do wyszukiwania tych ostatnich w bazie danych Genbank możemy używać programu BLAST (Basic Local Alignment Search Tool).
Matematyka BLASTu Jak zdefiniować podobieństwo sekwencji? Nie wszystkie mutacje są równie pradopodobne. Trzeba konstruować odpowiednie macierze (np. PAM120, BLOSUM62) które reprezentują te prawdopodobieństwa. Mutacje jednego kodonu na drugi są mało kłopotliwe, ale jak sobie poradzić z deletions and insertions? Poza tym, im większa baza danych, tym więcej będzie zupełnie przypadkowych podobieństw. Jak wyrazić stopień podobieństwa ciągów w liczbach tak, by biolog mógł łatwo odróżnić przypadkowe podobieństwa od znaczących?
Informatyka BLASTu Jak zaprojektować algorytm który przeszukuje Genbank dostatecznie szybko? Jeśli chcemy, żeby komputer o szybkości 4GHz patrzył na każdą z 85 miliardów liter z Genbank choć raz i porównał z daną literą, potrzeba na to przynajmniej 42,5 sekund. A BLAST musi jeszcze wykonać dużo wiecej operacji. Wynik BLASTu który za chwilkę pokażę dostałem po 30 sekundach. To podejrzanie szybko. Jak to się dzieje?
Biologia BLASTu Jak czytać i interpretować wynik BLASTu? Kiedy znalezione podobieństwo ma znaczenie biologiczne? Jakie podobieństwa może BLAST łatwo przeoczyć? Jak najlepiej wybrać parametry w tym programie? Im lepiej biolog zna matematykę i informatykę BLASTu, tym skuteczniej będzie mógł z tego programu korzystać.
Jak geny ze sobą współpracują: Regulacja ekspresji genów Ekspresja genu zależy od obecności pewnych czynników transkrypcji. Dla ilustracji załóżmy że ekspresja genu x następuje tylko wtedy, kiedy czynnik A i przynajmniej jeden z czynników B lub C są obecne, a czynnik D nie jest obecny. Wtedy czynniki A, B, C stymulują ekspresję genu x, a czynnik D ją inhibuje. Zauważmy że czynniki A, B, C, D też są produktami pewnych genów i ulegają degradacji. Zatem ich obecność wymaga stosunkowo niedawnej ekspresji odpowiednich genów. Możemy więc traktować regulację ekspresji genów jako układ dynamiczny gdzie poziom ekspresji się zmienia w czasie i geny nawzajem się regulują.
Przykłady dynamiki tego układu Najprostsza dynamika to zbieganie do punktu stałego. Obserwujemy taką dynamikę np. kiedy organizm wraca do równowagi po zażywaniu małej dawki trucizny. Po zażywaniu zbyt dużej dawki organizm też osiąga punkt stały, ale inny. Dynamikę cykliczną obserwujemy np. w cyklu komórkowym. Poszczególne fazy tego cyklu różnią się poziomem ekspresji pewnego zespołu genów. Normalny rozwoju organizmu wielokomórkowego podlega ściślej regulacji ilości podziałów i apoptozy pewnych komórek. Błędy w tej regulacji mogą doprowadzić do deformacji lub nowotworów.
Cele matematycznego modelowania dynamiki genów Modele matematyczne układu regulacji genów mogą nam pomóc w lepszym rozumieniu mechanizmów rządzących tego typu zjawiskami. Za pomocą takich modeli możemy łatwiej znaleźć odpowiedzi na pytania typu: Jakie czynniki regulują ekspresję genu x? Które z nich stymulują, a które inhibują tę ekspresję? Jaki zespół genów reguluje dany proces, np. cykl komórkowy, i jak te geny, lub ich produkty, w tym współpracują? Jakie zakłócenia lub mutacje prowadzą do nieporządanej dynamiki jaką np. obserwujemy w nowotworach?
Skąd wziąć dane? Mikromacierze pozwalają nam mierzyć zmiany w ilości mRNA w czasie albo w róznych warunkach doświadczalnych, dla wszystkich potencjalnych mRNA danego organizmu równocześnie. Czerwona kropka oznacza zwiekszoną ilość w jednym doświadczeniu, zielona kropka zwiększoną ilość w drugim, żółta kropka oznacza ekspresję bez zmian, a czarna kropka brak ekspresji w obu eksperymentach.
Jak z tych danych korzystać? Najprostszy sposób wykorzystania mikromacierzy polega na przeprowadzaniu serii eksperymentów i grupowanie próbek ze względu na profil ekspresji genów. Taka procedura może np. pozwolić na odróżnianie podtypów nowotworu. Drugi najprostszy sposób to grupowaniu genów ze względu na profil ekspresji w próbkach. Można przypuszczać że geny rządzące tym samym procesem mają podobny profil ekspresji. W ten sposób np. zidentyfikowano geny regulujące cykl komórki w drożdżach S. cerevisiae. Matematyka tu może pomóc w sformułowaniu dobrej definicji podobieństwa profilu ekspresji i w konstrukcji algorytmów na klasyfikację profilów dziesiątek tysięcy genów.
Reverse-engineering regulację genów Klasyfikacja genów według profilu ekspresji jest pożyteczna, ale jeszcze nie daje nam modelu dynamiki. Konstrukcja takich modeli jest znana pod nazwą reverse-engineering układów regulacji genów. Jest to dziedzina w początkowym stadium rozwoju. Są jednak pierwsze sukcesy. Proponowano sporo algorytmów budujących, na podstawie danych, modele dynamiki małych, stosunkowo izolowanych podukładów tego gigantycznego układu wszystkich genów. Często się zdarza że modele w ten sposób skonstruowane przewidują np. że czynnik transkrypcji A stymuluje transkrypcję genu x, co się daje potem potwierdzić eksperymentalnie.
Kiedy algorytm daje dobry wynik? Algorytm na reverse-engineering może nam dać tylko hipotezę na poprawny układ dynamiczny. Jaki duży zbiór danych jest potrzebny, by algorytm dał nam poprawny model z prawdopodobieństwem, powiedzmy, większym niż 0.5? Jaki wybór parametrów algorytmu daje największe szanse na sukces? Takie pytania można badać jako formalne problemy matematyczne. A jeśli już mamy częściowy zbiór danych, jak zaprojektować następny eksperyment, żeby dał algorytmowi maksymalną ilość informacji?
Kiedy model jest “poprawny”? Zgrubsza rzecz biorąc, można uznać model za poprawny póki przewiduje taką dynamikę jaką obserwujemy w przyrodzie. Jeśli model przewiduje inną dynamikę niż obserwujemy w laboratorium, to należy model odrzucić. Najczęstszym tego powodem jest, że model był zbyt uproszczony. Np. zdecydowaliśmy się ignorować pewne geny czy białka które jednak odgrywają ważną rolę w danym procesie. Ale właśnie to może być ważnym odkryciem dającym się potwierdzić doświadczalnie!
Ale o jakiego rodzaju modelach matematycznych tu mówimy? Zmienne w naszych modelach reprezentują ilość mRNA czy kodowanych przez nich białek. Modelujemy dynamikę, czyli zmianę tych ilości w czasie. Teraz matematyk musi powziąć dwie podstawowe decyzje: Jak matematycznie reprezentować ilość? Jak matematycznie reprezentować czas?
Modele stochastyczne Reakcje w komórce zachodzą pomiędzy indywidualnymi cząstkami które się losowo zderzają z dostatecznie wysoką energią. Można zatem reprezentować ilość jako liczbę cząstek danego związku i modelować dynamikę jako proces stochastyczny z czasem dyskretnym lub ciągłym. Tego typu modele są najbardziej szczegółowe, ale ich analiza jest praktycznie niemożliwa jeśli liczba cząstek poszczególnego białka czy mRNA jest duża. Takie modele jednak dały ciekawe wyniki o genetyce pewnych wirusów.
Modele równań różniczkowych Jeśli pojedyncze związki występują w dużej liczbie cząstek, to można ich ilość reprezentować jako liczbę rzeczywistą odpowiadającą stężeniu danego związku. Pochodne tych zmiennych zależą od wektora stężeń wszystkich związków i reprezentują szybkość i kierunek zmian tych stężeń. Dynamikę opisuje układ równań różniczkowych. Modele układów równań różniczkowych zwyczajnych ignorują czas potrzebny na transport i dyfuzję zanim produkt Y genu y może regulować transkrypcję genu x. Modele układów równań różniczkowych cząstkowych uwzględniają te procesy, ale są na ogół zbyt skomplikowane. Można też modelować za pomocą równań różniczkowych z opóźnieniem. Te ostatnie modele są bardziej dokładne niż równania różniczkowe zwyczajne i mniej skomplikowane niż równania różniczkowe cząstkowe.
Kiedy można uprościć? Pod jakimi warunkami model równań różniczkowych jest dostatecznie dobrym przybliżeniem modelu stochastycznego? A kiedy można ignorować czas potrzebny na transport i dyfuzję i modelować regulację genów układem równań różniczkowych zwyczajnych zamiast cząstkowych lub równań różniczkowych z opóźnieniem? To są ciekawe pytania dla matematyków. Nie są to pytania całkowicie nowe, ale współczesna biologia dodaje do nich wagę i wskazuje na typy układów, dla których odpowiedź jest najbardziej potrzebna.
A może trzeba jeszcze prościej? Konstrukcja modeli równań różniczkowych wymaga dość dokładnych pomiarów stężeń wszystkich związków modelowanych. Obecnie jeszcze nie mamy technologii na pobieranie tak dokładnych pomiarów na wielką skalę. Mikromacierze tylko mówią nam kiedy dany mRNA występuje w znacznie zmienionej ilości. Modele Boolowskie odrózniają tylko dwa poziomy stężeń: niski = 0 i wysoki = 1. Dane uzyskane za pomocą mikromacierzy wydają się dostatecznie dokładne na konstrukcję tego typu modeli. Czas w modelach Boolowskich jest na ogół modelowany w sposób dyskretny jako ciąg liczb naturalnych, ale istnieją też próby modelowania za pomocą układów Boolowskich z opóźnieniem gdzie czas jest liczbą rzeczywistą.
Ale czy można aż tak uprościć? Wróćmy do naszego przykładu ekspresji genu x która następuje wtedy i tylko wtedy, kiedy czynnik A i przynajmniej jeden z czynników B lub C są obecne (stężenie 1), a czynnik D nie jest obecny (stężenie 0). W języku Boolowskim gdzie 1 = prawda i 0 = fałsz można tę sytuację wyrazić formułą A and (B or C) and (not D). Więc język modeli Boolowskich jest wystarczający by wyrazić pewne informacje ważne dla biologów. Ale czy, lub raczej: w jakich warunkach, dynamika modelu Boolowskiego daje nam wiarogodny obraz dynamiki układu biologicznego? To pytanie można ściśle sformułować jako problem matematyczny, który jest obecnie w centrum moich własnych zainteresowań naukowych.
Podsumowanie: nowy mikroskop i nowa fizyka Matematyka stała się narzędziem zarówno niezbędnym jak i pożytecznym dla biologii. Modele matematyczne ułatwiają odkrywanie i rozumienie mechanizmów rządzących procesami biologicznymi. Mikroskop matematyczny pozwala na sformułowanie nowych hipotez dających się potwierdzieć eksperymentalnie, za pomocą m.in. tych tradycyjnych przyrządów optycznych. Mikroskopy matematyczne na ogół nie przychodzą z prostą instrukcją obsługi. Żeby maksymalnie wykorzystać ich moc potrzebny jest dialog między matematykami i biologami. Matematycy i biolodzy operują odmiennym slownictwem naukowym i mają odmienne nawyki myślenia. Skuteczny dialog wymaga uczenia się wspólnego języka i wzajemnego zrozumienia odmiennych podejść naukowych. Postęp w nauce zależy od zadawania dobrych pytań. Część tych pytań się tłumaczy na nowe otwartych problemy matematyczne. Stąd zainteresowanie tą nową fizyką.