Paweł Kupis Jacek Mańdziuk

Slides:



Advertisements
Podobne prezentacje
Tworzenie stron internetowych
Advertisements

Egzamin.
Wykład 5 Standardowy błąd a odchylenie standardowe
Schemat blokowy M START KONIEC
CIĄGI.
Ile rozwiązań może mieć układ równań?
Metoda simpleks Simpleks jest uniwersalną metodą rozwiązywania zadań programowania liniowego. Jest to metoda iteracyjnego poprawiania wstępnego rozwiązania.
Wprowadzenie do optymalizacji wielokryterialnej.
Bioinformatyczne bazy danych
Metody identyfikacji i lokalizacji sekwencji kodujących w genomie
Algorytm Dijkstry (przykład)
HTML.
ALGORYTMY I STRUKTURY DANYCH
Elementarne struktury danych Piotr Prokopowicz
Lingwistyka Matematyczna
ZLICZANIE cz. II.
Materiały do zajęć z przedmiotu: Narzędzia i języki programowania Programowanie w języku PASCAL Część 8: Wykorzystanie procedur i funkcji © Jan Kaczmarek.
Model danych oparty na listach
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Metoda simpleks opracowanie na podstawie „Metody wspomagające podejmowanie decyzji w zarządzaniu” D. Witkowska, Menadżer Łódź Simpleks jest uniwersalną.
Odkrywanie wzorców sekwencji
Tworzenie nowej biblioteki
dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji
MS ACCESS Kwerendy.
Podstawy programowania
Zbiór do posortowania mieści się w pamięci
Rekurencja.
Rozliczanie etapów studentów
Instrukcja USOS Przedmioty obieralne i językowe wersja by Marek Opacki.
WZORY SUMARYCZNE I STRUKTURALNE PROSTYCH ZWIĄZKÓW CHEMICZNYCH
Przegląd podstawowych algorytmów
Algorytmy memetyczne i ich zastosowania
Algorytmy i Struktury Danych Typy algorytmów
Metody matematyczne w Inżynierii Chemicznej
RAYGRAF RAYGRAF umożliwia ocenę zgodności próbek pisma na podstawie 5-ciu parametrów: Zgodności współczynników podobieństwa liniowego Wpl Zgodności współczynników.
Elementy Rachunku Prawdopodobieństwa i Statystyki
TABLICE C++.
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Tworzenie programów, etapów oraz określanie wymagań etapowych
Radosław Kaczyński Wrocław 2006
Typy wykresów Bartosz Celiński.
Marcin Jaruszewicz Jacek Mańdziuk
Tablice w Turbo Pascalu.
ZBIORY I DZIAŁANIA NA ZBIORACH
Ujarzmić Worda Agnieszka Terebus.
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
ZAPIS BLOKOWY ALGORYTMÓW
Algorytmika.
Wyszukiwanie maksimum funkcji za pomocą mrówki Pachycondyla Apicalis.
Metody numeryczne szukanie pierwiastka metodą bisekcji
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Znaki specjalne Co i jak + brak przykładów.  Aby wstawić symbol lub znak specjalny należy na karcie Wstawianie w grupie Symbole kliknąć na przycisk Symbol.
Excel Filtrowanie Funkcje bazodanowe
RAR jako format kompresji bezstratnej.. RAR został stworzony przez Rosjanina Eugene Roshala. Do kompresji danych używa odmiany kompresji LZSS. Jest wolniejszym.
TWORZENIE I FORMATOWANIE TABEL
Laboratorium nr.3 Algorytm przyrównania globalnego
Opracowanie mgr Karol Adamczyk
Algorytmy Genetyczne Anna Tomkowska Politechnika Koszalińska
Metody rozwiązywania układów równań liniowych
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
BAZY DANYCH Microsoft Access Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i.
1. Adres względny 2. Adres bezwzględny 3. Adres mieszany.
Podstawowe zadania w programie Excel 2010 Klasa 2 TOR.
„Filtry i funkcje bazodanowe w EXCELU”
Istotą kolumn jest przedzielenie strony na kilka części położonych obok siebie. Ilość kolumn jest generowana przez użytkownika, odpowiednio dla jego potrzeb.
Modulacje wielu nośnych FDMATDMA OFDM = Orthogonal Frequency Division Multiplexing jeden użytkownik opatentowana w połowie lat 1960.
Treść dzisiejszego wykładu l Analiza wrażliwości –zmiana wartości współczynników funkcji celu, –zmiana wartości prawych stron ograniczeń. l Podejścia do.
Rozpatrzmy następujące zadanie programowania liniowego:
Struktury i algorytmy wspomagania decyzji
Definicja problemu: (P2 | pi = 1, prec | Cmax)
Zapis prezentacji:

Paweł Kupis Jacek Mańdziuk Porównywanie sekwencji białkowych z wykorzystaniem metody ewolucyjno-progresywnej Paweł Kupis Jacek Mańdziuk

Biologiczna geneza problemu białko (polipeptyd) polimer liniowy aminokwasowy monomery – aminokwasy 20 rodzajów aminokwasów pierwszorzędowa struktura protein sekwencja białkowa kolejność aminokwasów polaryzacja (kierunek czytania sekwencji)

Biologiczna geneza problemu przykład HBA_HUMAN (prefix ludzkiej hemoblobiny) VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

Porównywanie sekwencji problem trudno wyznaczyć kryterium porównywania pomysł ilość identycznych pozycji w sekwencjach o identycznej długości rozwiązanie uliniowienie sekwencji

Uliniowienie sekwencji uliniowienie sekwencji (ang. sequence alignment) warunki n-ty wiersza po usunięciu znaków ‘-‘ daje n-tą sekwencję długość wszystkich wierszy uliniowienia jest jednakowa żadna kolumna uliniowienia nie zawiera tylko znaków ‘-‘ CA-GCUUAUCGCUUAG AAUGCAU-UGACG--G

Uliniowienie wielu sekwencji MSA (ang. multiple sequence alignment) warunki n-ty wiersza po usunięciu znaków ‘-‘ daje n-tą sekwencję długość wszystkich wierszy uliniowienia jest jednakowa żadna kolumna uliniowienia nie zawiera tylko znaków ‘-‘ takie same jak dla uliniwienia dwóch sekwencji LGB2_LUPLU VPQ--NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSK-GVADAHFPV MYG_PHYCA EAEMKASEDLKKHGVTVLTALGAILKKKG--HHEAELKPLAQS---HATKHKIPIKYLEF GLB5_PETMA ADQLKKSADVRWHAERIINAVNDAVASMD--DTEKMSMKLRDLSGKHAKSFQVDPQYFKV HBB_HUMAN PDAVMGNPKVKAHGKKVLGAFSDGLAHLD--NLKGTFATLSEL---HCDKLHVDPENFRL HBB_HORSE PGAVMGNPKVKAHGKKVLHSFGEGVHHLD--NLKGTFAALSEL---HCDKLHVDPENFRL HBA_HUMAN -----GSAQVKGHGKKVADALTNAVAHVD--DMPNALSALSDL---HAHKLRVDPVNFKL HBA_HORSE -----GSAQVKAHGKKVGDALTLAVGHLD--DLPGALSNLSDL---HAHKLRVDPVNFKL . .:: *. : . * : * . : : .

Metoda ewolucyjno-progresywna metoda 2-etapowa etap 1. - ewolucyjny dopasowywanie kolumn całkowicie identycznych znajdowanie optymalnego tzw. „wstępnego uliniowienia” etap wykonywany rekurencyjnie etap 2. - progresywny uliniowienie obszarów między kolumnami zidentyfikowanymi w etapie 1.

Etap ewolucyjny dopasowywanie kolumn całkowicie identycznych, przykład: wszystkie możliwe kolumny zgodne

Etap ewolucyjny blok kolumn identycznych kolumny tworzą blok jeśli we wszystkich wierszach różnica w indeksach wynosi jeden (większy indeks – mniejszy indeks) blok może mieć dowolną długość w szczególności pojedynczą kolumną również można traktować jako blok

Etap ewolucyjny wstępne uliniowienie szereg bloków spełniający następujące warunki dowolny indeks może wystąpić w wierszu tylko raz w każdym wierszu indeksy są w porządku rosnącym powyższe warunki gwarantują, że na podstawie wstępnego uliniowienia można zbudować pełne uliniowienie (zachowując ustalone kolumny identyczne)

Etap ewolucyjny kolumny szkodliwe intuicyjnie możemy określić taką kolumnę jako łączącą „zbyt” odległe części różnych sekwencji kolumna taka, uniemożliwia bardzo często lepsze dopasowanie innych kolumn identycznych

Etap ewolucyjny bliskie optymalnemu uliniowienie z wymuszeniem uzgodnienia kolumny symboli T uliniowienie tych samych sekwencji bez uzgadnianie symboli T

Etap ewolucyjny zadania algorytmu ewolucyjnego znalezienie optymalnego wstępnego uliniowienia budowa populacji startowej czas budowy musi być „kontrolowalny” wprowadzenie to populacji startowej reprezentatywnego podzbioru możliwych kolumn identycznych użycie wszystkich (z wszystkich części sekwencji) symboli z sekwencji unikanie szkodliwych kolumn ew. późniejsza ich eliminacja

Budowa populacji startowej metodę charakteryzują dwa podstawowe parametry cmax – górny limit (w przybliżeniu) ilości zidentyfikowanych kolumn identycznych w% – szerokość tzw. „okna przeszukiwania” symbole tworzące kolumnę identyczną nie mogą pochodzić z dowolnych części sekwencji każdy symbol pochodzi z aktywnego okna przeszukiwania danej sekwencji

Budowa populacji startowej względna długość okna przeszukiwania (w stosunku do dł. sekwencji) jest taka sama dla wszystkich sekwencji analogicznie względna pozycja środka okna (względem początku sekwencji) z każdego okna, losowo, wybierany jest jeden symbol jeśli wszystkie symbole są identyczne, tworzona jest kolumna identyczna nie jest sprawdzana unikalność kolumny czynność jest wykonywana razy dla każdego symbolu (okna szerokości jednego symbolu) wyróżnionej sekwencji gdzie m – dł. wyróżnionej sekwencji (np. najkrótszej)

Budowa populacji startowej zbieranie informacji (tworzenie wstępnych uliniowień) A – zbiór kolumn identycznych (porządek odnajdywania) P – populacja startowa, początkowo pusta cp – nominalny rozmiar populacji startowej

Algorytm ewolucyjny populacja startowa (cmax=4000, w%=0.04) cp = (ma * n) / 10, ma – śr. dł. sekwencji, n – ilość sekwencji cp >= 100 oraz cp <= 400 tylko jeden operator genetyczny - krzyżowanie

Algorytm ewolucyjny krzyżowanie jednopunktowe losowe punkty cięcia (możliwe przed pierwszym i za ostatnim blokiem) punkt cięcia nigdy nie rozdziela bloku po wymianie informacji sprawdzana jest możliwość złączenia bloków sąsiadujących z punktem cięcia „lepszy” z potomków musi być lepszy od obojga rodziców domyślne prawdopodobieństwo krzyżowania = 0.4

Algorytm ewolucyjny funkcja przystosowania col(p) – ilość kolumn identycznych w osobniku p lenmin(p) – minimalna długość uliniowienia powstałego na podstawie uliniowienia wstępnego reprezentowanego przez osobnika p α – wykładnik określający istotność karania na powstawanie nadmiernie długich uliniowień (=20)

Algorytm ewolucyjny jeśli i-ty blok wstępnego uliniowienia p oznaczymy jako bi to funkcja lenmin(p) wyraża się wzorem

Algorytm ewolucyjny warunki stopu przystosowanie najlepszego osobnika nie zmieniło się od 40 generacji osiągnięto limit 1000 generacji wywołania rekurencyjne dla obszarów między blokami (w najlepszym z osobników) koniec rekurencji alg. ewolucyjny nie znalazł żadnej kolumny identycznej minimalna odległość między danymi blokami jest <= 20

Algorytm progresywny uruchamiany dla obszarów między blokami zidentyfikowanymi przez alg. ewolucyjny implementacja zbliżona do ClustalW drzewo filogenetyczne budowane metodą neighbor-joining (z ukorzenianiem metoda mid-point rooting)

Algorytm progresywny uliniawianie par metodą Myersa-Millera przystosowanie do uliniawiania uliniowień przystosowanie do afinicznej kary za wprowadzane przerwy kara k(w) = GOP + w*GEP, w – dł. Wprowadzonej przerwy kary za wprowadzanie przerw zależne od pozycji w sekwencji (funkcyjny opis parametrów kary afinicznej) stosowanie macierzy substytucji (automatyczny dobór w zależności do odległości sekwencji w drzewie filogenetycznym)

Testy Na podstawie referencyjnych baz BAliBASE bazy udostępniają zarówno testowe zestawy sekwencji, jak i gotowe uliniowienia tych zestawów

Ocena uliniowienia miara SPS (Sum-of-Pair Score) , N - ilość sekwencji, n - długość uliniowienia danej pary sekwencji, m - ilość przerw w uliniowieniu pary sekwencji miara CS (Column Score) ilość kolumn identycznych w stosunku do dł. uliniowienia wszystkie wyniki podawane są jako średni stosunek miar w odniesieniu do rezultatów dla uliniowień z bazy referencyjnej

Wyniki

Wyniki

Koniec Pytania? Sugestie Dziękuje za uwagę