Komputerowa analiza sieci genowych (GRN) Agnieszka Marmołowska Jacek Ławrynowicz Promotor: prof. Krzysztof Giaro
Przypomnienie Gene regulatory network – sieć genów komórki, które wpływają na siebie
Wyewoluowane sieci Grafy
Wyewoluowane sieci Dane Sieć 1 Wierzchołki – 14 Krawędzie – 128 Sieć 2 Wierzchołki – 48 Krawędzie – 1082
Selektywność (assortativity) Parametr określający, czy wierzchołki o wysokich stopniach lubią łączyć się z ze sobą Różne wzory Różny zakres wartości
Selektywność Ilustracja Brak korelacji A = 0 A = 0.26 A = 0.43 Maksymalna (dla sieci o takim rozkładzie stopni) korelacja A = 0.62
Selektywność Neighbour connectivity Wzór funkcji Funkcja rosnąca – assortative network Funkcja malejąca – disassortative network
Neighbour connectivity Przykład Assortative
Neighbour connectivity Przykład Steel assortative
Neighbour connectivity Przykład Disassortative
Współczynnik selektywności Pearson correlation coefficient Wzór Sumy po wszystkich krawędziach j i i k i – stopnie wierzchołków, które łączy i-ta krawędź r jest znormalizowane
Współczynnik selektywności Przykład r = 1 r = 0,849
Współczynnik selektywności Przykład r = -0,111 r = -0,714
Współczynnik selektywności Sieci z życia Sieci społeczne – assortative Sieci techniczne/biologiczne – disassortative Sieci wyewoluowane A(1) – -0,0234 A(2) - -0,1945 Dlaczego tak jest?
Współczynnik klasteryzacji Wzór u – wierzchołek k – stopień wierzchołka u e – ilość krawędzi łączących k sąsiadów u C – średni współczynnik klasteryzacji dla wszystkich wierzchołków C(k) – średni współczynnik klasteryzacji dla wierzchołków o stopniu k
Współczynnik klasteryzacji Zbadano: Sieci metabolicznych 43 organizmów Sieci interakcji białek (S. cerevisiae, H. pylori, E. coli, C. elegans) Regulacyjnych sieci genowych (S. Cerevisiae) C(k)~k -1 Wnioski: Pojedyncze moduły składają się z gęsto zgrupowanych wierzchołków o relatywnie niskim stopniu Moduły są połączone przez centralne wierzchołki o wysokim stopniu
Współczynnik klasteryzacji Wyewoluowana sieć n = 14, m = 128 C = 0,335 C(k)~k -1 ?
Współczynnik klasteryzacji Wyewoluowana sieć n = 48, m = 1028 C = 0,327 C(k)~k -1 ?
Współczynnik klasteryzacji Dlaczego? Sieć jest grafem: skierowanym dopuszcza krawędzie wielokrotne Spróbujmy z grafem prostym
Współczynnik klasteryzacji Wyewoluowana sieć – graf prosty n = 14, m = 138 C = 0,405
Współczynnik klasteryzacji Wyewoluowana sieć – graf prosty n = 48, m = 1206 C = 0,336
Struktruty społeczne Występowanie grup wierzchołków gęściej połączonych między sobą niż z wierzchołkami spoza grupy. Wiele algorytmów znajdowania modułów.
Algorytmy wykrywania modułów Klasteryzacja hierarchiczna Algorytm Girvan–Newman Maksymalizacja Modularity Filtracja klik (Clique percolation) Minimalne rozdzięcie
Klasteryzacja hierarchiczna Dwa rodzaje: Agglomerative – bottom-up, każdy wierzchołek w oddzielnym klastrze Divisive – top-down, wszystkie wierzchołki w jednym klastrz Zarys algorytmu: Każdej krawędzi przypisywana jest waga (edge betweeness centrality ) Wierzchołki są łączone według malejącej wagi (rozdzielane według malejącej wagi) Złożoność O(mn + m) = O(mn) (O(n 2 ))
Girvan–Newman Krawędzie są usuwane, tworząc klastry Zarys algorytmu: Każdej krawędzi przypisywana jest waga (edge betweeness) Usuwana jest krawędź o najwyższej wadze Wagi przeliczane są na nowo Złożoność O(nm 2 ) (O(n 3 ))
Maksymalizacja Modularity Przeszukiwanie możliwych podziałów na klastry i wybór najlepszego Miara dobroci podziału (modularity) e ij – ilość krawędzi między i-tym i j-tym klastrem Przeszukanie wszystkich możliwości – bardzo nieoptymalne
Maksymalizacja Modularity Zarys algorytmu zachłannego: Każdy wierzchołek jest w oddzielnym klastrze, tworzona jest macierz E Krok algorytmu: Obliczenie dla każdej krawędzi - O(m) Wybór krawędzi o największym Poprawienie macierzy E – O(n) Złożoność O((m+n)n) (O(n 2 ))
Przedstawienie wyników Wyniki algorytmów GN oraz Maksymalizacji można przedstawić jako dendrogram Dendrogram wytworzony przez algorytm maksymalizacji dla sieci społecznej klubu karate