Dynamika procesu uczenia sieci

Slides:



Advertisements
Podobne prezentacje
Modelowanie i symulacja
Advertisements

Sterowanie – metody alokacji biegunów II
Metody badania stabilności Lapunowa
Analiza współzależności zjawisk
Równanie różniczkowe zupełne i równania do niego sprowadzalne
BUDOWA MODELU EKONOMETRYCZNEGO
Badania operacyjne. Wykład 2
Przykład: Dana jest linia długa o długości L 0 bez strat o stałych kilometrycznych L,C.Na początku linii zostaje załączona siła elektromotoryczna e(t),
Wykład no 11.
Sieci pamieci skojarzeniowej
Sieci Neuronowe Wykład 5 Sieć Hopfielda
o radialnych funkcjach bazowych
Dobór optymalnej architektury
KINEMATYKA Kinematyka zajmuje się związkami między położeniem, prędkością i przyspieszeniem badanej cząstki – nie obchodzi nas, skąd bierze się przyspieszenie.
Wyrównanie metodą zawarunkowaną z niewiadomymi Wstęp
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz,
Systemy dynamiczneOdpowiedzi systemów – modele różniczkowe i różnicowe Kazimierz Duzinkiewicz, dr hab. inż.Katedra Inżynierii Systemów Sterowania 1 Systemy.
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania.
OPORNOŚĆ HYDRAULICZNA, CHARAKTERYSTYKA PRZEPŁYWU
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Nierówności (mniej lub bardziej) geometryczne
MECHANIKA NIEBA WYKŁAD r.
Opis matematyczny elementów i układów liniowych
Systemy wspomagania decyzji
Modele ze strukturą wieku
Metody Lapunowa badania stabilności
ETO w Inżynierii Chemicznej MathCAD wykład 4.. Analiza danych Aproksymacja danych.
AUTOMATYKA i ROBOTYKA (wykład 6)
Metody numeryczne SOWIG Wydział Inżynierii Środowiska III rok
Podstawy analizy matematycznej II
Obserwatory zredukowane
Stabilność Stabilność to jedno z najważniejszych pojęć teorii sterowania W większości przypadków, stabilność jest warunkiem koniecznym praktycznego zastosowania.
Rozważaliśmy w dziedzinie czasu zachowanie się w przedziale czasu od t0 do t obiektu dynamicznego opisywanego równaniem różniczkowym Obiekt u(t) y(t) (1a)
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
MECHANIKA 2 Wykład Nr 11 Praca, moc, energia.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Systemy wspomagania decyzji
Sterowanie – użycie obserwatorów pełnych
Homogenizacja Kulawik Krzysztof.
Modelowanie i Identyfikacja 2011/2012 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Warstwowe.
Modelowanie i identyfikacja 2010/2011Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra.
Miary efektywności/miary dobroci/kryteria jakości działania SSN
Teoria sterowania 2011/2012Stabilno ść Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Stabilność Stabilność to jedno.
Teoria sterowania 2011/2012Sterowanie – metody alokacji biegunów III Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Sterowanie.
Podstawy analizy matematycznej I
II. Matematyczne podstawy MK
Wprowadzenie do ODEs w MATLAB-ie
Sterowanie – metody alokacji biegunów II
MECHANIKA I WYTRZYMAŁOŚĆ MATERIAŁÓW
Stabilność Stabilność to jedno z najważniejszych pojęć dynamiki systemów i teorii sterowania W większości przypadków, stabilność jest warunkiem koniecznym.
Dynamika układu punktów materialnych
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Metody numeryczne szukanie pierwiastka metodą bisekcji
C(r) całka korelacji: – norma badanej wielkości fizycznej
WYKŁAD 5 OPTYKA FALOWA OSCYLACJE I FALE
Ruch jednowymiarowy Ruch - zmiana położenia jednych ciał względem innych, które nazywamy układem odniesienia. Uwaga: to samo ciało może poruszać się względem.
MODELOWANIE ZMIENNOŚCI CEN AKCJI
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Wykład Rozwinięcie potencjału znanego rozkładu ładunków na szereg momentów multipolowych w układzie sferycznym Rozwinięcia tego można dokonać stosując.
Ruch – jedno w najczęściej obserwowanych zjawisk fizycznych
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Temat – 5 Modelowanie różniczkowe.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 11
Modelowanie i podstawy identyfikacji
Teoria sterowania Wykład /2016
Analiza numeryczna i symulacja systemów
MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH
Jednorównaniowy model regresji liniowej
Sterowanie procesami ciągłymi
Podstawy teorii spinu ½
Zapis prezentacji:

Dynamika procesu uczenia sieci Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Sieci Neuronowe Wykład 7 Dynamika procesu uczenia sieci wykład przygotowany na podstawie. R. Tadeusiewicz, “Sieci Neuronowe”, Rozdz. 9. Akademicka Oficyna Wydawnicza RM, Warszawa 1993. Elzbieta Richter-Was

Dynamika procesu uczenia W czasie dotychczasowych wykładów dyskutowaliśmy rozmaite modele sieci neuronowych i różne związane z nimi techniki uczenia. Uczenie (chwilowo rozważamy go w stosunku do pojedynczego neuronu) polega na znajdowaniu nowych wartości wektora wag W’ na podstawie poprzednich wartości tego wektora wag W oraz pewnych dodatkowych danych (wektora wejściowego X, sygnału wyjściowego y, wielkości zadanej z itp.) W wyniku procesu uczenia wektor wag zmieniał się, w j-tym kroku uczenia wektor wag wynosił W(j). Rozważmy proces uczenia jako proces ciągły, wprowadzając wektor wag jako funkcje czasu W(t), a regułę uczenia jako równanie różniczkowe wiążące zmiany tego wektora z czynnikami decydującymi o procesie uczenia.

Dynamika procesu uczenia Wzorując się na podejściu Kohonena (1989), ogólną postać tego równania można zapisać dW / dt = f(.) X – g(.) W gdzie f(.), g(.) są pewnymi (być może nieliniowymi) skalarnymi funkcjami X, W oraz y. Składnik f(.) X odpowiedzialny jest za proces nabywania nowych doświadczeń przez sieć; powoduje on w ogólnym przypadku całkowanie sygnałów wejściowych i przyczynia się do wytworzenia wewnętrznej reprezentacji nabywanej przez sieć umiejętności. Drugi składnik odpowiada za proces zapominania starych i nie aktualnych umiejętności, dzięki czemu mimo stałego dopływu informacji X(t) nie dochodzi do przepełnienia pamięci.

Przykład 1 Funkcje stałe: f = a , g = b dW / dt = a X – b W Rozwiązanie ma ogólna postać: W(t) = e-bt [ W(0) + a 0 ebt X(t) dt ] Można mu przypisać prosta interpretację: Uczenie prowadzi do wyznaczenia ruchomej średniej ważonej (ważonej wykładniczą funkcją czasu) wejściowego wektora X(t). Początkowa wartość W(0) jest szybko zapominana. t

Przykład 2 Funkcje stałe i liniowe: f = a y , g = b dW / dt = a y X – b W Jest to pierwszy nietrywialny model procesu uczenia najniższego rzędu. Sygnał wyjściowy neuronu y ingeruje w proces uczenia w najprostszy z możliwych sposobów, wywodzący się z klasycznych prac Hebba. Zakładając że neuron jest typu ADALINE, mamy y=WTX, a zatem dW / dt = (a X XT – bI) W gdzie I jest macierzą jednostkowa o wymiarach [n x n]. Równanie można zapisać w ogólniejszej postaci: dW / dt = -b (I - l X XT) W gdzie l = a/b. Własności tego równania łatwiej jest dyskutować dla dyskretnej skali czasu. t

Przykład 2 Wprowadzamy dyskretną skale czasu. Kolejne wartości wektora W(t) (gdzie t=0,1,2,...) można wyznaczać z iteracyjnego równania: W(t+1) = [(1-b) I + a X(t) XT(t)] W(t) Oznaczając występujący przy W(t) zależny od czasu (numeru kroku t) macierzowy mnożnik w tym równaniu przez P(t) otrzymujemy proste równanie dynamiki procesu uczenia: W(t+1) = P(t) W(t) gdzie macierz P(t) wyznaczana jest za pomocą zależności P(t) = (1-b) I + aX(t) XT(t)

Przykład 2 Rozwiązanie opisane równania daje dynamikę procesu uczenia w formie: W(t+1) = [  P(k) ] W(0) W ogólnym przypadku równanie to ma dość niekorzystne właściwości: albo jest rozbieżne (wartości W(t) “eksplodują” i osiągają nieskończenie duże wartości), albo zbiega się do wektora zerowego. Rozważaną metodę uczenia wolno stosować jedynie do modelowania systemów o skończonym i relatywnie krótkim czasie uczenia. Opisana metoda może być wygodna jako technika aproksymująca zachowanie systemów o znacznie większym stopniu złożoności, które charakteryzują się asymptotyczną stabilnością, ale są znacznie trudniejsze do analizy i kosztowniejsze do symulacji. t k=0 t

Przykład 2 Przy zaniedbaniu efektu “zapominania” (tzn. przy założeniu b=0) rozwiązanie równania uczenia może być aproksymowane za pomocą wzoru W(t) = [  + a  X(t) XT(t) dt ] W(0) co oznacza że wartości współczynników wagowych są w tym wypadku zależne tylko od wartości macierzy korelacji wejściowych sygnałów X(t). To jest ważny fakt, biorąc pod uwagę jak często i w jak różnych kontekstach wykorzystywane są macierze korelacji w przetwarzaniu sygnałów. Podane przybliżone rozwiązanie jest dalej rozbieżne. Można jednak wykazać, że W(t) dąży do wektora własnego macierzy korelacji sygnałów X(t) odpowiadającego największej wartości własnej w związku z czym może zostać wykorzystany dla dowolnego konkretnego t dla określenia np. składowych kanonicznych sygnału. t k=0

Przykład 2a Opisany przypadek liniowej funkcji f i stałej funkcji g ma pewien szczególnie ważny podprzypadek, uzyskiwany przy założeniu a < 0 i b = 0. Dla zaznaczenia specyfiki, jawnie stosujemy znak minus i tego rodzaju proces uczenia opisujemy wzorem: dW/dt = - a y XT , y = WT X Zachowanie takiego neuronu można łatwo wydedukować na podstawie rozważenia rozwiązania W(t) otrzymanego dla X(t)=const dla t>t0 . Rozwiązanie to ma postać: WT(t) = WT(t0) [ I - (t) X XT] gdzie (t) = || X ||-2 ( 1 – e-a||X||2(t-t0) ) łatwo zauważyć że 0  (t)  || X ||-2 i przy niezmiennym sygnale wejściowym “ślad pamięciowy” wejściowych wrażeń w miarę upływu czasu systematycznie się zaciera. Takie zjawisko znane jest pod nazwa “wykrywacza nowości”.

Przykład 3 Jedna funkcja jest liniowa, a druga jest stałą, tylko odwrotnie niż w omówionym poprzednio przykładzie: f = a i g =by. Wówczas: dW/dt = a X – b y W po wstawieniu liniowego równania opisującego funkcjonowanie neuronu ( y =WT X ) otrzymujemy następujące równanie dynamiki uczenia: dW/dt = ( a I – b W WT ) X które jest nieliniowe ze względu na W, a więc nie może być w ogólnym przypadku rozwiązane analitycznie. Jest to szczególna postać równania Riccatiego, którego całka nie jest znana w postaci analitycznej. Oczywiście, pozostaje do dyspozycji rozwiązanie numeryczne, jednak jego przydatność jest bardzo ograniczona.

Przykład 3 Możliwe jest jednak uzyskanie pewnych ogólnych informacji o wartościach W(t) przy dość oczywistych i możliwych do spełnienia w praktyce założeniach upraszczających. Wymnażając obie strony podanego równania przez 2WT otrzymujemy równanie 2 WT dW/dt = 2 WT (a I – b WWT) X jest to równanie skalarne a niewiadoma jest ||W||2. Rozpisując dalej otrzymujemy d/dt(||W||2) = 2y (a-b) ||W||2) Dla y > 0 rozwiązanie tego równania jest zbieżne do wartości ||W*||2 = a/b, co można interpretować w ten sposób, że długość wektora ||W||2 nie ulega w trakcie uczenia istotnym zmianom, natomiast istota uczenia polega na tym, że wektor W jest “obracany” w taki sposób, aby dążył do uzgodnienia swego kierunku z kierunkiem wektora X.

Przykład 3 Zagwarantowanie spełnienia warunku y > 0 jest realizowane przez nieliniowa funkcje f(e), która charakteryzuje się z reguły “odcinaniem” ujemnych sygnałów y. Zagadnienie obrotu wektora W w celu uzgodnienia jego położenia z kierunkiem wektora X (a dokładniej z kierunkiem oczekiwanego (średniego) położenia wektora X) rozważymy jako problem statystyczny. Wprowadźmy pojecie warunkowej wartości oczekiwanej E{ * | W} oznaczająca uśredniona po zbiorze wszystkich możliwych realizacji procesu uczenia wartość obiektu *. Np. można zapisać, ze E{ X | W} = <X> , gdzie <X> oznacza wartość średnia X, ponieważ X jest statystycznie niezależne od W. Rozważmy teraz zmienność kata Q pomiędzy wektorami <X> i W w toku procesu uczenia.

Przykład 3 Ponieważ z definicji : cos Q = <X>T W / ( ||<X>|| ||W|| ) wobec tego E{ d (cos Q ) / dt | W} = E{ d/dt (<X>T W / ( ||<X>|| ||W|| ) | W} Rozpisując dalej tą równość otrzymujemy (po kilku przeksztalceniach) postać E{ d (cos Q ) / dt | W} = - a ||<X>|| / ||W|| sin Q Oznacza to, że dla niezerowych wartości <X>, uśredniany w toku procesu uczenia kierunek wektora W zmierza monotonicznie do kierunku wyznaczonego przez <X>. Ponieważ długość jest zbieżna do pewnej ustalonej wartości ||W*||2 = a/b, zatem można wykazać że, ogólnie w procesie uczenia, W zmierza do W* = a / ( b ||<X>|| ) <X> który jest w istocie znormalizowanym wektorem <X> o znormalizowanej długości a /  b .

Przykład 3 Rozważmy tzw. punkt stały równania dynamiki uczenia, to znaczy taką wartość W*, dla której rozwiązanie równania dW/dt = (a I – b WWT) X spełnia warunek dW/dt = 0. Szukamy rozwiązania w postaci W* = r <X>, gdzie <X> oznacza wartość średnią X. Podstawiamy odgadniętą formułę, otrzymując równanie a <X> - br <X> r(<X>T<X>) = 0 czyli a<X> = br2 ||<X>|| <X> a więc r =(a)/ (b) / ||<X>|| co daje W* = (a)/ (b) / ||<X>|| <X>

Przykład 4 Zagadnienie uczenia jest dwuliniowe, obie rozważane funkcje są liniowo zależne od y: f = ay, g=by. Wówczas dW/dt = ay X – by W albo, uwzględniając równanie opisujące funkcjonowanie neuronu dW/dt = a X XT W – by W WT X wprowadzając oznaczenia: E{X|W} = <X> oraz E{XXT|W} = Cxx gdzie Cxx jest macierzą kowariancji składowych wektora X, otrzymujemy równanie. dW/dt = a Cxx W – b (<X>T W) W Jest to równanie Bernouliego drugiego stopnia. Można wykazać że jego rozwiązaniem są wektory własne macierzy kowariancji Cxx.

Przykład 4 Spróbujmy poszukać punktu stałego W* w postaci W* = r Ci, gdzie Ci jest wektorem własnym macierzy Cxx odpowiadającym wartości własnej li : Cxx Ci = li Ci Wówczas równanie dW/dt = 0 prowadzi do zależności: r a li Ci – r2 b (<X>T Ci) Ci = 0 której rozwiązanie ma formę r = ali / (b <X>T Ci) i ostatecznie W* = ali / (b <X>T Ci) Ci Podane wyżej rozwiązania mogą być stabilne lub niestabilne.

Przykład 4 Rozwiązanie opisujące przebieg procesu uczenia W(t) będzie dążyć do wartości W* = r Cmax , gdzie Cmax jest wektorem własnym odpowiadającym wartości własnej lmax. Warunkiem jest aby w każdym momencie t zachodziła zależność CTmax W(t) > 0. Biorąc pod uwagę fakt, że wektor Cmax jest a priori nie znany trudno jest zagwarantować spełnienie tego warunku. Podstawowa trudność pojawia się przy ustalaniu punktu startowego dla procesu uczenia W(0), ponieważ oczywiście trzeba zapewnić spełnienie warunku CTmax W(0) > 0. Brak spełnienia tego warunku prowadzi zwykle do procesu uczenia który jest niestabilny (rozbieżny do nieskończoności) albo zbieżny do W*=0.

Przykład 5 Zagadnienie uczenia jest z założenia nieliniowe, tylko jedna funkcja jest liniowo zależna od y: f = a y, natomiast druga ma na początku formę nieliniowa: g = b y2. Wówczas: dW/dt = a y W – b y2 W albo uwzględniając równanie opisujące funkcjonowanie neuronu dW/dt = a X XT W - b (WT X W XT) W Wprowadzając jak poprzednio oznaczenie E{X XT | W} = Cxx otrzymujemy równanie dW/dt = a Cxx W - b (WT Cxx W) W ten model uczenie może być, zaskakująco, łatwiejszy do dyskusji niż poprzednie przypadki.

Przykład 5 Rozważmy najpierw długość wektora W. E{d ||W|| / dt | W} = 2 WT Cxx W( a – b ||W||2 ) Ponieważ WT Cxx W jest skalarem i WT Cxx W > 0, zatem łatwo dowieść, że ||W|| zmierza do wartości a/b, podobnie jak dla przykładu 3. Następnie rozważmy zmienność kąta Qi pomiędzy wektorem W* i Ci (i-tym wektorem własnym macierzy Cxx). Można wykazać, że E{d(cosQi) / dt |W} = a cos Qi ( li – (WTCxxW) / ||W||2 ) czyli zachowanie wektora W jest tu analogiczne jak w przykładzie 4. W sumie rozwiązanie zmierza do punktu na powierzchni sfery o promieniu a/b , a położenie tego punktu wyznaczone jest przez wektor Cmax .

Uogólnienie Powyższe rozważania można teraz uogólnić. Rozważmy ponownie równanie dynamiki procesu uczenia w ogólnej postaci: dW / dt = f(.) X – g(.) W Można sformułować następujące dwa twierdzenia które zostaną przytoczone poniżej.

Uogólnienie Twierdzenie 1. Niech f(.) = a oraz g(.) = g(y) gdzie y = WT X. Niech funkcja g(y) spełnia warunek, że istnieje wartość oczekiwana E{g(y) | W}, a dla każdego t wektor X(t) niech będzie wektorem stochastycznym o stacjonarnych parametrach statystycznych, niezależnych od W. Wówczas, jeśli równanie dW/dt = E{ a X - g(y) W |W } ma niezerowe ograniczone rozwiązanie W*, to rozwiązanie to musi mieć ten sam kierunek co <X> - wartość średnia X(t).

Uogólnienie Twierdzenie 2. Niech f(.) = a oraz g(.) = g(y) gdzie y = WT X. Niech funkcja g(y) spełnia warunek, ze istnieje wartość oczekiwana E{g(y) | W}, a dla każdego t wektor X(t) niech będzie wektorem stochastycznym o stacjonarnych parametrach statystycznych, niezależnych od W. Załóżmy ponadto że Cxx jest macierzą kowariancji wektora X. Wówczas, jeśli równanie dW/dt = E{ a y X - g(y) W |W } ma niezerowe ograniczone rozwiązanie W*, to rozwiązanie to musi mieć ten sam kierunek co Cmax – wektor własny macierzy Cxx odpowiadający największej wartości własnej lmax.