Metody obliczeniowe przewidywania interakcji białek z RNA Przemysław Kluz
Wstęp Zrozumienie molekularnego mechanizmu rozpoznawania kompleksów białek-RNA jest głównym wyzwaniem biologii strukturalnej.
Podstawowe informacje Interakcje białko-RNA odgrywają ważną rolę w wielu procesach komórkowych takich jak: Transkrypcja RNA Odwrotna transkrypcja Replikacja RNA Transport RNA Translacja mRNA Regulacja poziomu RNA w komórkach
Po co to robić? Defekty w interakcjach białko-RNA powodują wiele chorób, od zaburzeń neurologicznych po raka.
Dlaczego metody obliczeniowe? Niestety eksperymentalne wyznaczanie kompleksów białko-RNA przy użyciu krystalografii rentgenowskiej i spektroskopii jest uciążliwe i trudne. Eksperymentalne metody są procesami powolnymi i trudnymi.
Metody eksperymentalne 1203 kompleksy makromolekularne są dostępne w „Protein Data Bank” 1035 dzięki krystalografii rentgenowskiej 69 dzięki spektroskopi magnetycznego rezonansu jądrowego 99 dzięki innym metodom Dane z września 2011
Metody eksperymentalne Krystalografia rentgenowska
Metody eksperymentalne Urządzenie do spektroskopi magnetycznego rezonansu jądrowego
Dlaczego metody obliczeniowe? Wykorzystywane alternatywnie do przewidywania interakcji białko-RNA Mniej dokładne niż obserwacje eksperymentalne Dostatecznie dokładne by naprowadzić eksperymenty
Do czego używane są metody obliczeniowe? Czy dane białko wiąże RNA? Jeśli tak to które elementy sekwencji proteinowej biorą udział w łączeniu z RNA? Jaka jest struktura kompleksu białko-RNA?
Przewidywanie białek łączących się z RNA Większość tych metod identyfikuje białka wiążące się z RNA bazując głównie na ładunku elektrycznym, ponieważ szkielet fosforanowy RNA jest negatywnie naładowany i raczej wchodzi w interakcję z pozytywnie naładowanymi białkami. Jednak nie jest to reguła. Inne metody używają ogólnego składu aminokwasowego, biegunowości itp.
Inne metody bioinformatyczne Metody polegające na uczeniu maszynowym, głównie opierające się o „support vector machines” (SVM) Niestety żadna z tych metod nie jest ogólnie dostępna
Przewidywanie z sekwencji białka Głównie polega na używaniu: Uczenia maszynowego Ukrytych modeli Markova (HMM) „Support vector machines” (SVM)
Porównanie skuteczności opisanych metod Wzięto 75 rekordów zawierających kompleksy RNP z Protein Data Bank i porównano przewidywane interakcje z obserwowanymi w kompleksach RNP. Na tej podstawie stworzono charakterystykę zestawiając „prawdziwie pozytywne trafienia” (TPR) z „fałszywie pozytywnymi trafieniami” oraz obliczając tzw. „Matthews Correlation Coefficient” (MCC).
Wyniki porównania skuteczności opisanych metod
Wyniki porównania skuteczności opisanych metod
„Meta-predictor” Naukowcy prowadzący testy porównawcze skuteczności tych metod stworzyli swój własny „Meta-predictor”, który bazuje na trzech najlepszych w powyższym rankingu metodach: PiRaNhA, PPRInt oraz BindN+
„Meta-predictor” - wyniki „Meta-predictior” dał o 0.9% lepsze wyniki niż metoda PiRaNhA co sugeruje, że opisywane metody są ze sobą silnie skorelowane.
Podsumowanie W ostatnich latach ilość znanych kompleksów białko-RNA znacznie wzrosła Metody znajdowania tych struktur są pracochłonne i powolne, więc jest duże zapotrzebowanie na metody obliczeniowe do ich przewidywania
Podsumowanie Mimo, że obecnie stosowane metody są dalekie od perfekcji, jesteśmy w stanie przy ich pomocy uzyskać wskazówki co do prowadzenia analizy eksperymentalnej Porównanie dostępnych w dzisiejszych czasach metod pokazało, że metody te mają słabą dokładność i można uzyskać minimalnie lepszą dokładność łącząc je
Podsumowanie Porównanie tych metod pokazało też, że wyniki pracy opisanych metod są ze sobą mocno związane, co sugeruje, że lepsze wyniki można osiągnąć tworząc nowe metody opierając się na innych założeniach niż dotychczas