Inteligencja Obliczeniowa Sieci RBF.

Slides:



Advertisements
Podobne prezentacje
o radialnych funkcjach bazowych
Advertisements

IV Tutorial z Metod Obliczeniowych
STATYSTYKA WYKŁAD 03 dr Marek Siłuszyk.
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Inteligencja Obliczeniowa Sieci dynamiczne cd.
Inteligencja Obliczeniowa Indukcja reguł - modele.
Inteligencja Obliczeniowa Sieci RBF.
Inteligencja Obliczeniowa Otwieranie czarnej skrzynki.
Katedra Informatyki Stosowanej UMK
Inteligencja Obliczeniowa Ulepszenia MLP
Katedra Informatyki Stosowanej UMK
Uczenie konkurencyjne.
Samoorganizacja: uczenie bez nadzoru.
Inteligencja Obliczeniowa Sieci dynamiczne.
Inteligencja Obliczeniowa Metody probabilistyczne.
Inteligencja Obliczeniowa Systemy neurorozmyte.
Wykład 28 Włodzisław Duch Uniwersytet Mikołaja Kopernika
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Inteligencja Obliczeniowa Sieci o zmiennej strukturze.
Inteligencja Obliczeniowa Perceptrony
Inteligencja Obliczeniowa Feature Space Mapping.
o radialnych funkcjach bazowych
Sztuczne sieci neuronowe
Ulepszenia metody Eigenfaces
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Inteligencja Obliczeniowa Klasteryzacja i uczenie bez nadzoru.
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz,
Linear Methods of Classification
Additive Models, Trees, and Related Methods
Sieci neuronowe jednokierunkowe wielowarstwowe
Klasyfikacja dokumentów za pomocą sieci radialnych
Obserwatory zredukowane
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
formalnie: Uczenie nienadzorowane
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Zakładamy a priori istnienie rozwiązania α układu równań.
Sterowanie – użycie obserwatorów pełnych
Modelowanie i identyfikacja 2010/2011Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra.
MECHANIKA I WYTRZYMAŁOŚĆ MATERIAŁÓW
Sterowanie – użycie obserwatorów pełnych
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Metody rozwiązywania układów równań liniowych
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Metody sztucznej inteligencji – technologie rozmyte i neuronoweReguła propagacji wstecznej  Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów.
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania Modelowanie i podstawy identyfikacji 2015/2016 Modele neuronowe – podstawy,
Grafika 2d - Podstawy. Kontakt Daniel Sadowski FTP: draver/GRK - wyklady.
Fundamentals of Data Analysis Lecture 12 Approximation, interpolation and extrapolation.
Radialne Funkcje Bazowe i algorytmy aproksymacyjne Sieci Neuronowe Wykład 15 Włodzisław Duch Uniwersytet Mikołaja Kopernika Google: W. Duch.
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Radialne Funkcje Bazowe i algorytmy aproksymacyjne
Learnmatrix, Adaline, Madaline i modele liniowe
Systemy neuronowo – rozmyte
Samoorganizacja: uczenie bez nadzoru
Metody matematyczne w Inżynierii Chemicznej
Perceptrony o dużym marginesie błędu
Wykład 4 (cz. 1) Pierwsze zastosowania modelowania molekularnego: lokalna i globalna minimalizacja energii potencjalnej.
Katedra Informatyki Stosowanej UMK
Włodzisław Duch Katedra Informatyki Stosowanej,
Katedra Informatyki Stosowanej UMK
Sieci o zmiennej strukturze
Perceptrony o dużym marginesie błędu
Systemy Ekspertowe i Sztuczna Inteligencja trudne pytania
Hiperpowierzchnia energii potencjalnej cząsteczki
MNK – podejście algebraiczne
Inteligencja Obliczeniowa Perceptrony
Katedra Informatyki Stosowanej UMK
Samoorganizacja: uczenie bez nadzoru
Programowanie sieciowe Laboratorium 4
Perceptrony wielowarstwowe, wsteczna propagacja błędów
Zapis prezentacji:

Inteligencja Obliczeniowa Sieci RBF. Wykład 13 Włodzisław Duch Uniwersytet Mikołaja Kopernika Google: W. Duch (c) 1999. Tralvex Yeap. All Rights Reserved

Co było Algorytmy konstruktywistyczne Przykłady zastosowań sieci MLP (c) 1999. Tralvex Yeap. All Rights Reserved

Teoria aproksymacji Funkcje radialne Sieci RBF Co będzie (c) 1999. Tralvex Yeap. All Rights Reserved

Filozofia RBF MLP - dyskryminacja, LDA, aproksymacja stochastyczna. RBF = Radial Basis Functions (1988) - inne podejście. Uczenie jako problem aproksymacji, najlepszego dopasowania (rekonstrukcji) hiperpowierzchni do danych treningowych. Twierdzenie (Cover 1965): Jeśli przekształcić wzorce X={X(i)}, i=1.. p, nieliniową funkcją na wektory F(X(i))={h(X(i))k}, k = 1..M, M > p wzorce prawdopodobnie staną się liniowo separowalne: tj. istnieje płaszczyzna WT F(X(i)) 0 dla X(i)C1, WT F(X(i)) <0 dla X(i)C2 (c) 1999. Tralvex Yeap. All Rights Reserved

Separowalność wielomianowa Jeśli wziąć funkcje wielomianowe: to zamiast sep. liniowej mamy sep. wielomianową. Functional Link Networks (Pao), SVM i Kernel Methods: optymalizacja nieliniowego przekształcenia. (c) 1999. Tralvex Yeap. All Rights Reserved

Functional link networks Pao (1989) - sieci połączeń funkcjonalnych. Model tensorowy: do zmiennych wejściowych należy dodać ich iloczyny, to rozwiązuje nieliniowo sep. problemy. Separacja kwadratowa Problem: za dużo parametrów. Realizacja: sieć perceptronów z dodatkowymi wejściami lub sieć z jedną warstwą ukrytą realizująca nieliniowe mapowanie. (c) 1999. Tralvex Yeap. All Rights Reserved

Uczenie jako problem aproksymacji Dla N punktów znajdź funkcję spełniającą: Postać funkcji RBF: Funkcja błędu z członem regularyzacyjnym: (c) 1999. Tralvex Yeap. All Rights Reserved

Funkcja RBF Człon regularyzacjny: uwzględnia dodatkowe warunki, takie jak pożądana gładkość funkcji. Postać funkcji RBF: Funkcja błędu z członem regularyzacyjnym: (c) 1999. Tralvex Yeap. All Rights Reserved

Rozwiązanie RBF Dla wąskich f. Gaussowskich hij =dij, wagi Wi =Yi , Jeden węzeł sieci na jeden wektor treningowy, bez regularyzacji. Dla wąskich f. Gaussowskich hij =dij, wagi Wi =Yi , idealne rozwiązanie, ale zła generalizacja. H - macierz interpolacji. Radialne f. bazowe: H dodatnio określona (Light 1992). Większe dyspersje, mniej funkcji - lepsza generalizacja. (c) 1999. Tralvex Yeap. All Rights Reserved

Interpretacja geometryczna Jeśli prawdziwa aproksymowana funkcja f(x) leży w przestrzeni rozpiętej przez wektory bazowe (x) to możliwe jest rozwiązanie bez błędu, w przeciwnym razie aproksymowana jest projekcja ortogonalna (błąd jest ortogonalny do p-ni bazowej). (c) 1999. Tralvex Yeap. All Rights Reserved

Regularyzacja RBF Człon regularyzacjny uwzględnia dodatkowe warunki, takie jak pożądana gładkość funkcji. Jeśli człon regularyzacyjny jest niezmienniczy translacyjnie i rotacyjnie to funkcja aproksymująca musi mieć postać radialną. Dowód: teoria aproksymacji zaszumionych danych, teoria f. Greena, teoria estymacji z Gaussowskimi jądrami. (c) 1999. Tralvex Yeap. All Rights Reserved

Rozwiązanie z regularyzacją Regularyzacja w teorii aproksymacji źle uwarunkowanych problemów: Tikhonov 1963. Stabilizacja przez dodatkowe warunki, operator P. Minimalizacja funkcji błędu z członem regularyzacyjnym daje równanie Eulera-Lagrange’a dla funkcjonału kosztu E(F) Dla operatorów P w postaci różniczkowej: (c) 1999. Tralvex Yeap. All Rights Reserved

Wpływ regularyzacji Duża liczba f. bazowych o małej dyspersji bez regularyzacji i po regularyzacji (Ossowski 1996) (c) 1999. Tralvex Yeap. All Rights Reserved

Funkcje radialne Przykłady: lokalne i nie Radialna Inverse multiquadratic Multiquadratic Gauss Thin splines (cienkiej płytki) (c) 1999. Tralvex Yeap. All Rights Reserved

Funkcja Gaussa Jedyna lokalna i separowalna f. radialna (c) 1999. Tralvex Yeap. All Rights Reserved

Funkcja współrzędnej radialnej (c) 1999. Tralvex Yeap. All Rights Reserved

Funkcje wielokwadratowe (c) 1999. Tralvex Yeap. All Rights Reserved

Funkcje cienkiej płytki (c) 1999. Tralvex Yeap. All Rights Reserved

Sieci RBF Jedna warstwa ukryta, parametry nieliniowe funkcji transferu + wagi łączące z warstwą wyjściową. Sieci GRBF - mniejsza liczba węzłów niż danych. Sieci HRBF - pełna macierz obrotów i skalowania Q: Q różne dla różnych centrów (c) 1999. Tralvex Yeap. All Rights Reserved

Uczenie sieci RBF Parametry nieliniowe funkcji transferu: centra, dyspersje; + wagi. Inicjalizacja początkowych centrów: klasteryzacja lub samoorganizacja. Inicjalizacja dyspersji: średnie odległości od wektorów z innych klas. Uczenie - metody gradientowe, podobnie jak w BP. Metoda probabilistyczna: jeśli rozkład równomierny, p. przynależności X do klastra o centrum Di i zakładamy diagonalne dyspersje to: (c) 1999. Tralvex Yeap. All Rights Reserved

Inicjalizacja RBF 1 Algorytm inicjalizacji centrów przez klasteryzację:   Wybierz w przypadkowy sposób punkt początkowy, nie należący do otoczenia już ustalonych centrów. Utwórz zbiór wszystkich punktów z danej klasy leżących bliżej niż punkty z innej klasy. Przyjmij położenie centrum Di jako średnią dla punktów znalezionego zbioru Powtarzaj dwa ostatnie kroki aż do zbieżności Inne metody klasteryzacji: dendrogramy, łączenie histogramów. (c) 1999. Tralvex Yeap. All Rights Reserved

Inicjalizacja RBF 2 Algorytm inicjalizacji centrów przez samoorganizację: Wybierz w przypadkowy sposób punkt początkowy, nie należący do otoczenia już ustalonych centrów. Utwórz zbiór wszystkich punktów z danej klasy leżących bliżej niż punkty z innej klasy. Zmieniaj położenie centrum Di po prezentacji każdego wektora treningowego: Stała uczenia hk zanika w miarę wzrostu k, np. (T - stała l. epok) Przesuwanie centrów w jakimś promieniu - samoorganizacja. (c) 1999. Tralvex Yeap. All Rights Reserved

Uczenie - obroty i usuwanie. Pełna macierz transformacji Q: za dużo parametrów dla danych o dużej l. cech; diagonalna - ustawienia wzdłuż osi. Obroty f. zlokalizowanych - przydatne; wystarczy Qii0 i Qii+1 0, realizuje dowolne obroty. Inna metoda: iloczyn Gauss * (s(WX+b)-s(WX+b’)) Uproszczenie: kąt obrotu ustalony po inicjalizacji (c) 1999. Tralvex Yeap. All Rights Reserved

Konstruktywny RBF. GAL (Growing and Learning), GrRBF (Growing Radial Basis Function), FEN (Function Estimation Networks), RAN (Resource Allocation Networks) Klasyfikatory Gaussowskie, sieci probabilistyczne ... Dwa kryteria wzrostu: duży błąd e + brak centrum w okolicy, które ma szanse po modyfikacji ten błąd zmniejszyć. (c) 1999. Tralvex Yeap. All Rights Reserved

RCE Reduced Coulomb Energy model (Bachman, Cooper .. 1987) Funkcje typu twardej sfery o zmiennym promieniu pokrywające całą przestrzeń. Początkowo ri jak największe, w czasie uczenia są zmniejszane do połowy odległości z centrum odmiennej klasy i dostawiane są nowe sfery. Niejednoznaczne obszary - kolor ciemnoczerwony. (c) 1999. Tralvex Yeap. All Rights Reserved

Porównanie MLP-RBF MLP RBF Nielokalne, wymagają douczania jeden rodzaj parametrów trudna inicjalizacja trudna interpretacja ustalone klasy uczenie tylko pod nadzorem zawsze wie BP dość skomplikowane dla wielu warstw RBF Lokalne efekty, stabilność kilka rodzajów parametrów łatwa inicjalizacja tworzą nowe klasy możliwe uczenie bez nadzoru czasami nie wie uczenie łatwe bo 1 warstwa (c) 1999. Tralvex Yeap. All Rights Reserved

Co dalej? Sieci Hopfielda Sieci Hebbowskie i modele mózgu Samoorganizacja (c) 1999. Tralvex Yeap. All Rights Reserved

Koniec wykładu 13 Dobranoc ! (c) 1999. Tralvex Yeap. All Rights Reserved