Inteligencja Obliczeniowa Feature Space Mapping.

Slides:



Advertisements
Podobne prezentacje
Wprowadzenie do optymalizacji wielokryterialnej.
Advertisements

Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Metody rozwiązywania układów równań liniowych
Inteligencja Obliczeniowa Sieci dynamiczne cd.
Inteligencja Obliczeniowa Indukcja reguł - modele.
Inteligencja Obliczeniowa Sieci RBF.
Inteligencja Obliczeniowa Otwieranie czarnej skrzynki.
Katedra Informatyki Stosowanej UMK
Katedra Informatyki Stosowanej UMK
Uczenie konkurencyjne.
Samoorganizacja: uczenie bez nadzoru.
Inteligencja Obliczeniowa Sieci dynamiczne.
Inteligencja Obliczeniowa Metody probabilistyczne.
Inteligencja Obliczeniowa Systemy neurorozmyte.
Wykład 28 Włodzisław Duch Uniwersytet Mikołaja Kopernika
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Inteligencja Obliczeniowa Sieci o zmiennej strukturze.
Inteligencja Obliczeniowa Perceptrony
Badania operacyjne. Wykład 2
Sztuczne sieci neuronowe
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Ulepszenia metody Eigenfaces
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Inteligencja Obliczeniowa Klasteryzacja i uczenie bez nadzoru.
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania.
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Paweł Kramarski Seminarium Dyplomowe Magisterskie 2
Grupowanie Wprowadzanie Definicja problemu
Linear Methods of Classification
Wielkości skalarne i wektorowe
Sieci neuronowe jednokierunkowe wielowarstwowe
Systemy wspomagania decyzji
Sztuczne Sieci Neuronowe
Analiza współzależności cech statystycznych
formalnie: Uczenie nienadzorowane
Detekcja twarzy w obrazach cyfrowych
Uczenie w Sieciach Rekurencyjnych
Zakładamy a priori istnienie rozwiązania α układu równań.
Systemy wspomagania decyzji
Modelowanie i Identyfikacja 2011/2012 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Warstwowe.
Model I/O bazujący na HSWN Problem uczenia sieci HSWN
Wnioskowanie w stylu Takagi - Sugeno.
Zasady przywiązywania układów współrzędnych do członów.
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Grafika i komunikacja człowieka z komputerem
Tematyka zajęć LITERATURA
Zagadnienie własne Macierz wektorów własnych V=(v1,v2,...,vn) przekształca zatem macierz A do postaci diagonalnej: W większości zastosowań w chemii i fizyce.
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Metody sztucznej inteligencji – technologie rozmyte i neuronoweReguła propagacji wstecznej  Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów.
Metody Inteligencji Obliczeniowej
Zarządzanie projektami
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania Modelowanie i podstawy identyfikacji 2015/2016 Modele neuronowe – podstawy,
Model ekonometryczny Jacek Szanduła.
Metody Inteligencji Obliczeniowej Adrian Horzyk Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii.
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Learnmatrix, Adaline, Madaline i modele liniowe
Systemy neuronowo – rozmyte
Perceptrony o dużym marginesie błędu
59 Konferencja Naukowa KILiW PAN oraz Komitetu Nauki PZITB
Co do tej pory robiliśmy:
Sieci o zmiennej strukturze
Perceptrony o dużym marginesie błędu
Systemy Ekspertowe i Sztuczna Inteligencja trudne pytania
Inteligencja Obliczeniowa Perceptrony
Katedra Informatyki Stosowanej UMK
Inteligencja Obliczeniowa Sieci RBF.
Perceptrony wielowarstwowe, wsteczna propagacja błędów
Zapis prezentacji:

Inteligencja Obliczeniowa Feature Space Mapping. Wykład 20 Włodzisław Duch Uniwersytet Mikołaja Kopernika

Co było Neuro-fuzzy Feature Space Mapping - motywacje Funkcje transferu

Co będzie Systematyka f. transferu Uczenie FSM FSM jako heurystyka Indukcja reguł za pomocą MLP.

Funkcje aktywacji Funkcja transferu f(I(X)) jest złożeniem wektorowej funkcji aktywacji I(X) i skalarnej funkcji wyjściowej neuronu o(I). 1. Aktywacja fan-in, czyli iloczyn skalarny W.X, daje hiperpłaszczyzny. 2. Funkcje odległości - służą za aktywację np. f. Gaussa, ograniczone 3. Mieszane f. aktywacji - najciekawsze kontury

Systematyka f. transferu

FT z mieszaną aktywnością Funkcje o aktywacji mieszanej: Funkcje stożkowe: między Gaussem a hiperpłaszczyzną Funkcje Lorentzowskie: Sieci optymalizujące kolejne funkcje: konstruktywne - np. korelacji kaskadowej.

FSM - f. trójkątna Symetryczna: położenie, szerokość. Niesymetryczna: położenie, dwie szerokości.

FSM - sieć Inicjalizacja: początkowy krajobraz i relacje topograficzne łącznego prawdop. p(X,Y). Dostrajanie: lokalne uczenie parametrów węzłów by min. błąd opisu. Funkcja FSM dla klasyfikacji: Wiele modułów sieci FSM + decyzje logiczne

FSM - inicjalizacja Algorytm konstruktywistyczny, dobra wstępna inicjalizacja przyspiesza zbieżność. Parametry dla f. zlokalizowanych: położenia, rozmycia. Analiza skupień, np. metoda k-średnich. n(k) - l wektorów w k-tym klastrze. xi(k) - wektory z k-tego klastra. Rozmycia dla funkcji zlokalizowanych Inicjalizacja za pomocą dendrogramów lub histogramów.

Inicjalizacja - denrogramy Stopniowe zmniejszanie rozdzielczości. Wyznacz macierz odległości pomiędzy elementami na podstawie: najbliższych obiektów należącymi do tych skupisk; najdalszych obiektów należących do tych skupisk; średniej z odległości pomiędzy wszystkimi parami obiektów należących do analizowanych skupisk (UPGMA); wariantów UPGMA: odległość między centrami skupisk; odległości ważone przez liczbę elementów.

Inicjalizacja - histogramy Zacznij od analizy w każdym wymiarze osobno. Dla każdego z wymiarów utwórz histogram. Wygładź histogram zakładając zamiast x liczbę Gaussowską lub trójkątną. Analizuj maksima histogramu; utwórz drzewo decyzji. Oblicz odległości między liści; połącz przylegające do siebie. Efekt: wektory w liściach definiują skupienia; po inicjalizacji węzły sieci pokrywają te skupienia.

FSM - uczenie 1. Wybierz funkcje transferu - dla reguł prostokątne, dla klasyfikacji Gaussowskie lub bicentralne. Wybór najlepszej funkcji - pierwsze testy. 2. Inicjalizacja: utwórz kilku węzłów opisujących rozkład wektorów danych z grubsza; zwykle nieźle działa. Dopuszcza się obroty „na sztywno”, tj. funkcje odległości z macierzą obrotu w kierunku najdłuższej osi klastra, dopasowując prostą. 3. Czytaj dane treningowe w losowej kolejności; oceń podobieństwo (stopień przynależności) do istniejących węzłów; dodaj nowy węzeł lub zmodyfikuj istniejące.

Parametry węzłów Do wyliczenia aktywacji potrzebne jest: Położenie centrum węzła D Rozmycie s (dla f. niesymetrycznych dwa). Dodatkowe parametry potrzebne w trakcie uczenia: masa m - l. wektorów klasyfikowanych przez dany węzeł czas powstania tn, - numer epoki, w której węzeł powstał klasa, którą węzeł reprezentuje Uczenie: epoka - prezentowanie ciągu treningowego i adaptacja parametrów sprawdź jakość działania, jeśli lepsza niż wymagana to: usuń węzły zbędne i o małej masie doucz sieć bez dodawania węzłów.

Kiedy poprawiać? Czy X podobny do istniejącego węzła? 1. Sprawdź odległość od istniejących węzłów: równoważne Jeśli S1(X)=1, czyli najbliższy węzeł jest z właściwej klasy, to popraw parametry tego węzła; jeśli nie to: 2. Poszukaj najbliższego węzła z tej samej klasy co Xi Jeśli węzeł ten jest bliżej niż graniczna wartość i wzbudza się dostatecznie silnie to go modyfikuj; jeśli nie to dostaw nowy węzeł.

Optymalizacja węzłów Nowy węzeł ma początkowe parametry: Adaptacja starych węzłów: m=m+1 (m=0 na początku epoki) L, G, K - stałe; próbuje się też zmniejszać rozmycia by uniknąć nakładania się węzłów, zmieniać kąty obrotu itd.

Ocena algorytmu uczenia FSM Wady: Algorytm ad hoc, tak jak Kohonena - z teoretycznego punktu widzenia można sformułować lepsze; Niestabilność sieci: powtarzanie uczenia prowadzi do różnych sieci dających zbliżone wyniki - zastosowanie komitetu sieci zwiększa stabilność. Zalety: algorytm konstruktywistyczny, większość parametrów jest ustalona, nie trzeba ingerować w proces uczenia; dowolne funkcje nieseparowalne, również nieróżniczkowalne; pozwala na interpretację logiczną; działa z wartościami brakującymi.

FSM - reguły 1. Stosuj funkcje prostokątne dla reguł ostrych. 2. Stosuj funkcje trójkątne, trapezoidalne, Gaussowskie i bicentralne dla reguł rozmytych. 3. Powiększaj rozmycia starając się wyeliminować daną cechę. 4. Ustal optymalną liczbę węzłów za pomocą kroswalidacji: FSM może zawsze się nauczyć danych w 100%.

FSM - dopełnianie wzorców 1. Ustal wartość znanych czynników, zwłaszcza tych najbardziej specyficznych (X1, .. Xk); weź i=k+1 i rozpocznij szukanie wartości pierwszego nieznanego czynnika Xi. Obliczaj wartość funkcji FSM zakładając, że pozostałe nieznane czynniki (Xi+1, .. XN) są nieistotne, tj. opuść je przy obliczaniu wartości funkcji (funkcje separowalne!). 2. Zanotuj kolejne wartości V(i,ji)=Xi , ji =1..Ni, dla których funkcja FSM(X1 ... Xi) ma lokalne maximum i FSM(X1 ... Xi) > e. Jeśli nie ma takiej wartości Xi przyjmij i = i-1 (krok wstecz). Jeśli i=k to zakończ szukanie. 3. Rozpocznij pętlę po ji =1..Ni, ustalając Xi =V(i,ji). Jeśli i<N przyjmij i=i+1 i przejdź do 2. 4. Jeśli i=N poszukiwania zakończyły się sukcesem. Zapamiętaj nowy fakt, czyli (X1, .. XN) i ich klasę. W ten sposób znajdziemy kombinację wszystkich cech, która daje lokalne maksimum dla wszystkich zmiennych.

2 Spirale Problem w 2-D. 98 punktów należących do jednej i 98 punktów do drugiej spirali. MLP bardzo trudno jest nauczyć 2 spiral. Gaussy z obrotami. Gaussy bez obrotów. 52 węzły

Pirymidyny Przewidzieć aktywność biologiczną klasy związków chemicznych. Wspólny szablon: R3, R4, R5 to miejsca podstawień grup chemicznych o 9 cechach: nazwa związku, polarność, dawca wiązania wodorowego, biorca wiązania wodorowego, dawca pi, biorca pi, polaryzowalność, efekt sigma. W sumie 27 cech; porównywanie aktywności par - 54 cechy. Brak podstawienia - wartości brakujące. 2788 danych, 5xCV Współczynnik Spearmana: d - odległość w rankingu par, n- liczba par. Golem (ILP) 0.68 LDA 0.65 CART 0.50 węzłów FSM (G) 0.770.02 (86) FSM (P) 0.770.03 (41)

FSM jako heurystyka Pytanie: Jeśli R2 wzrośnie, R1 i Vt stałe, co z prądem i spadkami napięcia V1, V2 ? Ok. 500 iteracji (w naturze 10 ms/iterację), iteracja to 100 aktualizacji. Jakościowo: rośnie, stałe, maleje. Prawo Ohma V=I×R; Kirhoffa V=V1+V2. (I-,V-,R0), (I+,V+,R0) ale nie (I+,V-,R0). 5 praw: 3 Ohma + Kirhoffa + dodawanie R. Wszystkie prawa A=B+C, A-1=B -1+C -1, A=B*C, mają taką samą reprezentację geometryczną!

Heurystyka 1 Funkcja FSM dla całości (5 praw spełnionych jednocześnie): Pytanie: Jeśli R2 wzrośnie, R1 i V stałe, co z I, V1, V2 ? Znaleźć kombinację by F(V=0, R, I,V1, V2, R1=0, R2=+) >0 Sprawdzić czy zmienna X może przyjąć wartość +, 0, - Nie może jeśli F(V=0, R, I,V1, V2, R1=0, R2=+) =0 Jest 111 kombinacji na 2187 (ok. 5%) Możliwe zastosowania: Rozumowanie w oparciu o reguły; miękka optymalizacja - nie wszystkie warunki spełnione dokładnie => małe |FSM(X)|

Koniec wykładu 20 Dobranoc !