Radialne Funkcje Bazowe i algorytmy aproksymacyjne Sieci Neuronowe Wykład 15 Włodzisław Duch Uniwersytet Mikołaja Kopernika Google: W. Duch.

Slides:



Advertisements
Podobne prezentacje
o radialnych funkcjach bazowych
Advertisements

STATYSTYKA WYKŁAD 03 dr Marek Siłuszyk.
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Projekt Do kariery na skrzydłach – studiuj Aviation Management Projekt współfinansowany ze ś rodków Europejskiego Funduszu Społecznego. Biuro projektu:
Inteligencja Obliczeniowa Sieci RBF.
Inteligencja Obliczeniowa Otwieranie czarnej skrzynki.
Katedra Informatyki Stosowanej UMK
Inteligencja Obliczeniowa Ulepszenia MLP
Katedra Informatyki Stosowanej UMK
Uczenie konkurencyjne.
Samoorganizacja: uczenie bez nadzoru.
Inteligencja Obliczeniowa Sieci dynamiczne.
Inteligencja Obliczeniowa Metody probabilistyczne.
Inteligencja Obliczeniowa Systemy neurorozmyte.
Wykład 28 Włodzisław Duch Uniwersytet Mikołaja Kopernika
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Inteligencja Obliczeniowa Sieci o zmiennej strukturze.
Inteligencja Obliczeniowa Perceptrony
Inteligencja Obliczeniowa Feature Space Mapping.
o radialnych funkcjach bazowych
Sztuczne sieci neuronowe
„Piramid Match Kernel”
Ulepszenia metody Eigenfaces
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Inteligencja Obliczeniowa Klasteryzacja i uczenie bez nadzoru.
Linear Methods of Classification
Additive Models, Trees, and Related Methods
Sieci neuronowe jednokierunkowe wielowarstwowe
Klasyfikacja dokumentów za pomocą sieci radialnych
Licencjonowanie wirtualizacji
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
formalnie: Uczenie nienadzorowane
Detekcja twarzy w obrazach cyfrowych
Algebra Przestrzenie liniowe.
ANALIZA KINEMATYCZNA MANIPULATORÓW ROBOTÓW METODĄ MACIERZOWĄ
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
CROSSWORD: SLANG. Konkurs polega na rozwiązaniu krzyżówki. CROSSWORD: SLANG Wypełnione karty odpowiedzi prosimy składać w bibliotece CJK, lub przesyłać.
Metody rozwiązywania układów równań liniowych
Paulina Kowalczyk Dominika Struzik I LO Tadeusz Kosciuszko in Wielun POLAND.
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
You are about to see a few sentences in Polish. Try to translate them into English, but keep in mind they are: The First Conditonal The Second Conditional.
Fundamentals of Data Analysis Lecture 12 Approximation, interpolation and extrapolation.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Radialne Funkcje Bazowe i algorytmy aproksymacyjne
Learnmatrix, Adaline, Madaline i modele liniowe
Systemy neuronowo – rozmyte
Perceptrony o dużym marginesie błędu
Wykład 4 (cz. 1) Pierwsze zastosowania modelowania molekularnego: lokalna i globalna minimalizacja energii potencjalnej.
A prototype of distributed modelling environment
Running Dictation Activity to Engage Students in Reading, Writing, Listening, and Speaking.
EMPOWEREMENT IN ICT SKILLS. I CREATED MY WEBSITE TO USE IT FOR TEACHING.
Lesson 11 – Problem Solving & Applications of Functions
Katedra Informatyki Stosowanej UMK
Sieci o zmiennej strukturze
Perceptrony o dużym marginesie błędu
Systemy Ekspertowe i Sztuczna Inteligencja trudne pytania
Hiperpowierzchnia energii potencjalnej cząsteczki
Computing situation in Poland
MNK – podejście algebraiczne
Inteligencja Obliczeniowa Perceptrony
Katedra Informatyki Stosowanej UMK
PROBABILISTIC DISTANCE MEASURES FOR PROTOTYPE-BASED RULES
zl
1) What is Linux 2) Founder and mascot of linux 3) Why Torvalds created linux ? 4) System advantages and disadvantages 5) Linux distributions 6) Basic.
Programowanie sieciowe Laboratorium 4
Programowanie sieciowe Laboratorium 3
Inteligencja Obliczeniowa Sieci RBF.
Perceptrony wielowarstwowe, wsteczna propagacja błędów
Zapis prezentacji:

Radialne Funkcje Bazowe i algorytmy aproksymacyjne Sieci Neuronowe Wykład 15 Włodzisław Duch Uniwersytet Mikołaja Kopernika Google: W. Duch

Co było Algorytmy konstruktywistyczne Przykłady zastosowań sieci MLP

Co będzie Teoria aproksymacji Funkcje radialne Sieci RBF i metody kernelowe

Filozofia RBF MLP - dyskryminacja, LDA, aproksymacja stochastyczna. RBF = Radial Basis Functions (1988) - inne podejście. Uczenie jako problem aproksymacji, najlepszego dopasowania (rekonstrukcji) hiperpowierzchni do danych treningowych. Twierdzenie (Cover 1965): Jeśli przekształcić wzorce X={X (i) }, i=1.. p, nieliniową funkcją na wektory  (X (i) )={h(X (i) ) k }, k = 1..M, M > p wzorce prawdopodobnie staną się liniowo separowalne: tj. istnieje płaszczyzna W T  (X (i) )  0 dla X (i)  C 1, W T  (X (i) ) <0 dla X (i)  C 2

Separowalność wielomianowa Jeśli wziąć funkcje wielomianowe: to zamiast sep. liniowej mamy sep. wielomianową. Functional Link Networks (Pao), SVM i Kernel Methods: optymalizacja nieliniowego przekształcenia.

Functional link networks Pao (1989) - sieci połączeń funkcjonalnych. Model tensorowy: do zmiennych wejściowych należy dodać ich iloczyny, to rozwiązuje nieliniowo sep. problemy. Separacja kwadratowa Problem: za dużo parametrów. Realizacja: sieć perceptronów z dodatkowymi wejściami lub sieć z jedną warstwą ukrytą realizująca nieliniowe mapowanie.

Uczenie jako problem aproksymacji Dla N punktów znajdź funkcję spełniającą: Postać funkcji RBF: Funkcja błędu z członem regularyzacyjnym:

Funkcja RBF Człon regularyzacjny: uwzględnia dodatkowe warunki, takie jak pożądana gładkość funkcji. Postać funkcji RBF: Funkcja błędu z członem regularyzacyjnym:

Rozwiązanie RBF Jeden węzeł sieci na jeden wektor treningowy, bez regularyzacji. Dla wąskich f. Gaussowskich h ij =  ij, wagi W i =Y i, idealne rozwiązanie, ale zła generalizacja. H - macierz interpolacji. Radialne f. bazowe: H dodatnio określona (Light 1992). Większe dyspersje, mniej funkcji - lepsza generalizacja.

Interpretacja geometryczna Jeśli prawdziwa aproksymowana funkcja f(x) leży w przestrzeni rozpiętej przez wektory bazowe  (x) to możliwe jest rozwiązanie bez błędu, w przeciwnym razie aproksymowana jest projekcja ortogonalna (błąd jest ortogonalny do p-ni bazowej).

Regularyzacja RBF Człon regularyzacjny uwzględnia dodatkowe warunki, takie jak pożądana gładkość funkcji. Jeśli człon regularyzacyjny jest niezmienniczy translacyjnie i rotacyjnie to funkcja aproksymująca musi mieć postać radialną. Dowód: teoria aproksymacji zaszumionych danych, teoria f. Greena, teoria estymacji z Gaussowskimi jądrami.

Rozwiązanie z regularyzacją Regularyzacja w teorii aproksymacji źle uwarunkowanych problemów: Tikhonov Stabilizacja przez dodatkowe warunki, operator P. Minimalizacja funkcji błędu z członem regularyzacyjnym daje równanie Eulera-Lagrange’a dla funkcjonału kosztu E(F) Dla operatorów P w postaci różniczkowej:

Wpływ regularyzacji Duża liczba f. bazowych o małej dyspersji bez regularyzacji i po regularyzacji (Ossowski 1996)

Funkcje radialne Przykłady: lokalne i nie Radialna Inverse multiquadratic Multiquadratic Gauss Thin splines (cienkiej płytki)

Funkcja Gaussa Jedyna lokalna i separowalna f. radialna

Funkcja współrzędnej radialnej

Funkcje wielokwadratowe

Funkcje cienkiej płytki

Sieci RBF Jedna warstwa ukryta, parametry nieliniowe funkcji transferu + wagi łączące z warstwą wyjściową. Sieci GRBF - mniejsza liczba węzłów niż danych. Sieci HRBF - pełna macierz obrotów i skalowania Q: Q różne dla różnych centrów

Uczenie sieci RBF Parametry nieliniowe funkcji transferu: centra, dyspersje; + wagi. Inicjalizacja początkowych centrów: klasteryzacja lub samoorganizacja. Inicjalizacja dyspersji: średnie odległości od wektorów z innych klas. Uczenie - metody gradientowe, podobnie jak w BP. Metoda probabilistyczna: jeśli rozkład równomierny, p. przynależności X do klastra o centrum D i i zakładamy diagonalne dyspersje to:

Inicjalizacja RBF 1 Algorytm inicjalizacji centrów przez klasteryzację: Wybierz w przypadkowy sposób punkt początkowy, nie należący do otoczenia już ustalonych centrów. Utwórz zbiór wszystkich punktów z danej klasy leżących bliżej niż punkty z innej klasy. Przyjmij położenie centrum D i jako średnią dla punktów znalezionego zbioru Powtarzaj dwa ostatnie kroki aż do zbieżności Inne metody klasteryzacji: dendrogramy, łączenie histogramów.

Inicjalizacja RBF 2 Algorytm inicjalizacji centrów przez samoorganizację: Wybierz w przypadkowy sposób punkt początkowy, nie należący do otoczenia już ustalonych centrów. Utwórz zbiór wszystkich punktów z danej klasy leżących bliżej niż punkty z innej klasy. Zmieniaj położenie centrum D i po prezentacji każdego wektora treningowego: Stała uczenia   zanika w miarę wzrostu k, np. (T - stała l. epok) Przesuwanie centrów w jakimś promieniu - samoorganizacja.

Uczenie - obroty i usuwanie. Pełna macierz transformacji Q: za dużo parametrów dla danych o dużej l. cech; diagonalna - ustawienia wzdłuż osi. Obroty f. zlokalizowanych - przydatne; wystarczy Q ii  0 i Q ii+1  0, realizuje dowolne obroty. Inna metoda: iloczyn Gauss * (  (WX+b)  (WX+b’)) Uproszczenie: kąt obrotu ustalony po inicjalizacji

Konstruktywny RBF GAL (Growing and Learning), GrRBF (Growing Radial Basis Function), FEN (Function Estimation Networks), RAN (Resource Allocation Networks) Klasyfikatory Gaussowskie, sieci probabilistyczne... Dwa kryteria wzrostu: duży błąd  + brak centrum w okolicy, które ma szanse po modyfikacji ten błąd zmniejszyć.

RCE Funkcje typu twardej sfery o zmiennym promieniu pokrywające całą przestrzeń. Początkowo r i jak największe, w czasie uczenia są zmniejszane do połowy odległości z centrum odmiennej klasy i dostawiane są nowe sfery. Niejednoznaczne obszary - kolor ciemnoczerwony. Reduced Coulomb Energy model (Bachman, Cooper )

Porównanie MLP-RBF MLP Nielokalne, wymagają douczania jeden rodzaj parametrów trudna inicjalizacja trudna interpretacja ustalone klasy uczenie tylko pod nadzorem zawsze wie BP dość skomplikowane dla wielu warstw RBF Lokalne efekty, stabilność kilka rodzajów parametrów łatwa inicjalizacja tworzą nowe klasy możliwe uczenie bez nadzoru czasami nie wie uczenie łatwe bo 1 warstwa

Kernele! Kernel trick: if vectors are transformed using some function (usually non-linear) into high-dimensional space separation of data may be easier to achieve. Replace: This leads to the same problem formulation, except that X is replaced everywhere by  (X); in particular Lagrangian contains scalar products: These scalar products are calculated between vectors in some transformed space; instead of calculating them directly it is sufficient to define a kernel function K(X,Y). What kind of functions correspond to scalar products in Hilbert spaces? They should be symmetric; formal conditions have been found in mathematical analysis by Mercer; they may influence convergence.

Kernel example Simplest: polynomial kernel: Example: quadratic kernel in 2-D Use of this kernel is equivalent to working in 5-D space: Hyperplane in 5D found using linear SVM corresponds to quadratic function in 2D; try to show that quadratic border in (X 1,X 2 ) space becomes a hyperplane in kernel space. Selection of kernel may strongly influence results.

Other popular kernels Some popular kernels working as scalar products: Dimensionality of the  space: number of independent polynomial products or number of training vectors. Distance kernel: for b=2 Euclidean distance  linear case! In complex cases (ex. protein comparison) kernel = similarity function, especially designed for the problem. Gaussian: Sigmoidal: Distance:

Przykład 1: kombinacje Gaussów Gaussian kernels work quite well, giving close to optimal Bayesian error (that may be computed only because we know the distributions, but it is not exact, since finite number of points is given). 4-deg. polynomial kernel is very similar to a Gaussian kernel, C=1.

Przykład 2: Cleveland heart data Left: 2D MDS features, linear SVM, C=1, acc. 81.9% Right: support vectors removed, margin is clear, all vector inside are SV. Gaussian kernel, C=10000, 10xCV, 100% train, 79.3  ± 7.8% test Gaussian kernel, C=1, 10xCV, 93.8% train, 82.6  ± 8.0% test Auto C=32 and Gaussian dispersion 0.004: about 84.4  ± 5.1% on test

Example 3: Ljubliana cancer recurrence 286 events: 85 recurrence (29.7%) and 201 no recurrence (70.3%); 9 features: tumor-size, inv-nodes, deg-malig, etc... Linear kernel, C=1 (C=10 similar, C=100 hard to converge): whole data 75 errors, or 73.8% 10xCV: training 73.7  1.0%, test 71.1  8.3% Linear kernel, C=0.01: 10xCV: training 70.6  0.7%, test 70.3  1.4% (base rate !) Polynomial kernel k=3, C=10 (opt): 10xCV: training 89.8  0.6%, test 74.2  7.9% (best for polynomial kernel) Gaussian kernel, opt C=1 and  10xCV: training 88.0  3.4%, test 74.8  6.5% (best for Gaussian kernel) But a rule: Involved Nodes > 0 & Degree_malig = 3 has 77.1% accuracy!

Some applications SVM found many applications, see the list at: A few interesting applications, with highly competitive results: On-line Handwriting Recognition, zip codes 3D object recognition Stock forecasting Intrusion Detection Systems (IDSs) Image classification Detecting Steganography in digital images Medical applications: diagnostics, survival rates... Technical: Combustion Engine Knock Detection Elementary Particle Identification in High Energy Physics Bioinformatics: protein properties, genomics, microarrays Information retrieval, text categorization

Get kernelized! Discriminant function – just replace dot product by kernel: Number of support vectors in a separable case is small, but in non- separable case may get large – all between the margins + errors. Kernels may be used in many discriminant methods, for example Kernel PCA or Kernel Fisher Discriminant Analysis. Covariance matrix after transformation:  (X) is d-dim vector, and  is d x n matrix now  may be negative to avoid mentioning Y i

Co dalej? Sieci Hopfielda Sieci Hebbowskie i modele mózgu Samoorganizacja

Koniec wykładu 15