Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/2006 11/11/05Prof. dr hab. Elżbieta Richter-Wąs Wykład 7 Dynamika procesu uczenia sieci Sieci.

Podobne prezentacje


Prezentacja na temat: "Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/2006 11/11/05Prof. dr hab. Elżbieta Richter-Wąs Wykład 7 Dynamika procesu uczenia sieci Sieci."— Zapis prezentacji:

1 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05Prof. dr hab. Elżbieta Richter-Wąs Wykład 7 Dynamika procesu uczenia sieci Sieci Neuronowe wykład przygotowany na podstawie. R. Tadeusiewicz, Sieci Neuronowe, Rozdz. 9. Akademicka Oficyna Wydawnicza RM, Warszawa 1993.

2 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 2 Prof. dr hab. Elżbieta Richter-Wąs Dynamika procesu uczenia W czasie dotychczasowych wykładów dyskutowaliśmy rozmaite modele sieci neuronowych i różne związane z nimi techniki uczenia. Uczenie (chwilowo rozważamy go w stosunku do pojedynczego neuronu) polega na znajdowaniu nowych wartości wektora wag W na podstawie poprzednich wartości tego wektora wag W oraz pewnych dodatkowych danych (wektora wejściowego X, sygnału wyjściowego y, wielkości zadanej z itp.) W wyniku procesu uczenia wektor wag zmieniał się, w j-tym kroku uczenia wektor wag wynosił W (j). Rozważmy proces uczenia jako proces ciągły, wprowadzając wektor wag jako funkcje czasu W(t), a regułę uczenia jako równanie różniczkowe wiążące zmiany tego wektora z czynnikami decydującymi o procesie uczenia.

3 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 3 Prof. dr hab. Elżbieta Richter-Wąs Dynamika procesu uczenia Wzorując się na podejściu Kohonena (1989), ogólną postać tego równania można zapisać dW / dt = (.) X – (.) W gdzie (.), (.) są pewnymi (być może nieliniowymi) skalarnymi funkcjami X, W oraz y. Składnik (.) X odpowiedzialny jest za proces nabywania nowych doświadczeń przez sieć; powoduje on w ogólnym przypadku całkowanie sygnałów wejściowych i przyczynia się do wytworzenia wewnętrznej reprezentacji nabywanej przez sieć umiejętności. Drugi składnik odpowiada za proces zapominania starych i nie aktualnych umiejętności, dzięki czemu mimo stałego dopływu informacji X(t) nie dochodzi do przepełnienia pamięci.

4 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 4 Prof. dr hab. Elżbieta Richter-Wąs Przykład 1 Funkcje stałe: dW / dt = X – W Rozwiązanie ma ogólna postać: W(t) = e - t [ W(0) + 0 e X( ) d ] Można mu przypisać prosta interpretację: Uczenie prowadzi do wyznaczenia ruchomej średniej ważonej (ważonej wykładniczą funkcją czasu) wejściowego wektora X(t). Początkowa wartość W(0) jest szybko zapominana. t

5 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 5 Prof. dr hab. Elżbieta Richter-Wąs Przykład 2 Funkcje stałe i liniowe: y dW / dt = y X – W Jest to pierwszy nietrywialny model procesu uczenia najniższego rzędu. Sygnał wyjściowy neuronu y ingeruje w proces uczenia w najprostszy z możliwych sposobów, wywodzący się z klasycznych prac Hebba. Zakładając że neuron jest typu ADALINE, mamy y=W T X, a zatem dW / dt = ( X X T – W gdzie jest macierzą jednostkowa o wymiarach [n x n]. Równanie można zapisać w ogólniejszej postaci: dW / dt = - ( - X X T W gdzie Własności tego równania łatwiej jest dyskutować dla dyskretnej skali czasu. t

6 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 6 Prof. dr hab. Elżbieta Richter-Wąs Przykład 2 Wprowadzamy dyskretną skale czasu. Kolejne wartości wektora W(t) (gdzie t=0,1,2,...) można wyznaczać z iteracyjnego równania: W(t+1) = [(1- ) + X(t) X T (t)] W(t) Oznaczając występujący przy W(t) zależny od czasu (numeru kroku t) macierzowy mnożnik w tym równaniu przez P(t) otrzymujemy proste równanie dynamiki procesu uczenia: W(t+1) = P(t) W(t) gdzie macierz P(t) wyznaczana jest za pomocą zależności P(t) = (1- ) + X(t) X T (t)

7 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 7 Prof. dr hab. Elżbieta Richter-Wąs Przykład 2 Rozwiązanie opisane równania daje dynamikę procesu uczenia w formie: W(t+1) = [ P(k) ] W(0) W ogólnym przypadku równanie to ma dość niekorzystne właściwości: albo jest rozbieżne (wartości W(t) eksplodują i osiągają nieskończenie duże wartości), albo zbiega się do wektora zerowego. Rozważaną metodę uczenia wolno stosować jedynie do modelowania systemów o skończonym i relatywnie krótkim czasie uczenia. Opisana metoda może być wygodna jako technika aproksymująca zachowanie systemów o znacznie większym stopniu złożoności, które charakteryzują się asymptotyczną stabilnością, ale są znacznie trudniejsze do analizy i kosztowniejsze do symulacji. t k=0 t

8 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 8 Prof. dr hab. Elżbieta Richter-Wąs Przykład 2 Przy zaniedbaniu efektu zapominania (tzn. przy założeniu =0) rozwiązanie równania uczenia może być aproksymowane za pomocą wzoru W(t) = [ + X( ) X T ( ) d ] W(0) co oznacza że wartości współczynników wagowych są w tym wypadku zależne tylko od wartości macierzy korelacji wejściowych sygnałów X(t). To jest ważny fakt, biorąc pod uwagę jak często i w jak różnych kontekstach wykorzystywane są macierze korelacji w przetwarzaniu sygnałów. Podane przybliżone rozwiązanie jest dalej rozbieżne. Można jednak wykazać, że W(t) dąży do wektora własnego macierzy korelacji sygnałów X(t) odpowiadającego największej wartości własnej w związku z czym może zostać wykorzystany dla dowolnego konkretnego t dla określenia np. składowych kanonicznych sygnału. k=0 t

9 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 9 Prof. dr hab. Elżbieta Richter-Wąs Przykład 2a Opisany przypadek liniowej funkcji i stałej funkcji ma pewien szczególnie ważny podprzypadek, uzyskiwany przy założeniu < 0 i = 0. Dla zaznaczenia specyfiki, jawnie stosujemy znak minus i tego rodzaju proces uczenia opisujemy wzorem: dW/dt = - y X T, y = W T X Zachowanie takiego neuronu można łatwo wydedukować na podstawie rozważenia rozwiązania W(t) otrzymanego dla X(t)=const dla t>t 0. Rozwiązanie to ma postać: W T (t) = W T (t 0 ) [ I - (t) X X T ] gdzie (t) = || X || -2 ( 1 – e - ||X|| 2 (t-t0) ) łatwo zauważyć że 0 (t) || X || -2 i przy niezmiennym sygnale wejściowym ślad pamięciowy wejściowych wrażeń w miarę upływu czasu systematycznie się zaciera. Takie zjawisko znane jest pod nazwa wykrywacza nowości.

10 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 10 Prof. dr hab. Elżbieta Richter-Wąs Przykład 3 Jedna funkcja jest liniowa, a druga jest stałą, tylko odwrotnie niż w omówionym poprzednio przykładzie: = i = y. Wówczas: dW/dt = X – y W po wstawieniu liniowego równania opisującego funkcjonowanie neuronu ( y =W T X ) otrzymujemy następujące równanie dynamiki uczenia: dW/dt = ( I – W W T ) X które jest nieliniowe ze względu na W, a więc nie może być w ogólnym przypadku rozwiązane analitycznie. Jest to szczególna postać równania Riccatiego, którego całka nie jest znana w postaci analitycznej. Oczywiście, pozostaje do dyspozycji rozwiązanie numeryczne, jednak jego przydatność jest bardzo ograniczona.

11 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 11 Prof. dr hab. Elżbieta Richter-Wąs Przykład 3 Możliwe jest jednak uzyskanie pewnych ogólnych informacji o wartościach W(t) przy dość oczywistych i możliwych do spełnienia w praktyce założeniach upraszczających. Wymnażając obie strony podanego równania przez 2W T otrzymujemy równanie 2 W T dW/dt = 2 W T ( I – WW T ) X jest to równanie skalarne a niewiadoma jest ||W|| 2. Rozpisując dalej otrzymujemy d/dt(||W|| 2 ) = 2y ( ) ||W|| 2 ) Dla y > 0 rozwiązanie tego równania jest zbieżne do wartości ||W*|| 2 = co można interpretować w ten sposób, że długość wektora ||W|| 2 nie ulega w trakcie uczenia istotnym zmianom, natomiast istota uczenia polega na tym, że wektor W jest obracany w taki sposób, aby dążył do uzgodnienia swego kierunku z kierunkiem wektora X.

12 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 12 Prof. dr hab. Elżbieta Richter-Wąs Przykład 3 Zagwarantowanie spełnienia warunku y > 0 jest realizowane przez nieliniowa funkcje (e), która charakteryzuje się z reguły odcinaniem ujemnych sygnałów y. Zagadnienie obrotu wektora W w celu uzgodnienia jego położenia z kierunkiem wektora X (a dokładniej z kierunkiem oczekiwanego (średniego) położenia wektora X) rozważymy jako problem statystyczny. Wprowadźmy pojecie warunkowej wartości oczekiwanej E{ * | W} oznaczająca uśredniona po zbiorze wszystkich możliwych realizacji procesu uczenia wartość obiektu *. Np. można zapisać, ze E{ X | W} =, gdzie oznacza wartość średnia X, ponieważ X jest statystycznie niezależne od W. Rozważmy teraz zmienność kata pomiędzy wektorami i W w toku procesu uczenia.

13 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 13 Prof. dr hab. Elżbieta Richter-Wąs Przykład 3 Ponieważ z definicji : cos = T W / ( || || ||W|| ) wobec tego E{ d (cos ) / dt | W} = E{ d/dt ( T W / ( || || ||W|| ) | W} Rozpisując dalej tą równość otrzymujemy (po kilku przeksztalceniach) postać E{ d (cos ) / dt | W} = - || || / ||W|| sin Oznacza to, że dla niezerowych wartości, uśredniany w toku procesu uczenia kierunek wektora W zmierza monotonicznie do kierunku wyznaczonego przez. Ponieważ długość jest zbieżna do pewnej ustalonej wartości ||W*|| 2 =, zatem można wykazać że, ogólnie w procesie uczenia, W zmierza do W* = || || ) który jest w istocie znormalizowanym wektorem o znormalizowanej długości.

14 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 14 Prof. dr hab. Elżbieta Richter-Wąs Przykład 3 Rozważmy tzw. punkt stały równania dynamiki uczenia, to znaczy taką wartość W*, dla której rozwiązanie równania dW/dt = ( – WW T ) X spełnia warunek dW/dt = 0. Szukamy rozwiązania w postaci W* =, gdzie oznacza wartość średnią X. Podstawiamy odgadniętą formułę, otrzymując równanie - T ) = 0 czyli = 2 || || a więc = ( )/ ( ) / || || co daje W* = ( )/ ( ) / || ||

15 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 15 Prof. dr hab. Elżbieta Richter-Wąs Przykład 4 Zagadnienie uczenia jest dwuliniowe, obie rozważane funkcje są liniowo zależne od y: = y, = y. Wówczas dW/dt = y X – y W albo, uwzględniając równanie opisujące funkcjonowanie neuronu dW/dt = X X T W – y W W T X wprowadzając oznaczenia: E{X|W} = oraz E{XX T |W} = C xx gdzie C xx jest macierzą kowariancji składowych wektora X, otrzymujemy równanie. dW/dt = C xx W – ( T W) W Jest to równanie Bernouliego drugiego stopnia. Można wykazać że jego rozwiązaniem są wektory własne macierzy kowariancji C xx.

16 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 16 Prof. dr hab. Elżbieta Richter-Wąs Przykład 4 Spróbujmy poszukać punktu stałego W* w postaci W* = r C i, gdzie C i jest wektorem własnym macierzy C xx odpowiadającym wartości własnej i : C xx C i = i C i Wówczas równanie dW/dt = 0 prowadzi do zależności: i C i – 2 ( T C i ) C i = 0 której rozwiązanie ma formę = i / ( T C i ) i ostatecznie W* = i / ( T C i ) C i Podane wyżej rozwiązania mogą być stabilne lub niestabilne.

17 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 17 Prof. dr hab. Elżbieta Richter-Wąs Przykład 4 Rozwiązanie opisujące przebieg procesu uczenia W(t) będzie dążyć do wartości W* = C max, gdzie C max jest wektorem własnym odpowiadającym wartości własnej max. Warunkiem jest aby w każdym momencie t zachodziła zależność C T max W(t) > 0. Biorąc pod uwagę fakt, że wektor C max jest a priori nie znany trudno jest zagwarantować spełnienie tego warunku. Podstawowa trudność pojawia się przy ustalaniu punktu startowego dla procesu uczenia W(0), ponieważ oczywiście trzeba zapewnić spełnienie warunku C T max W(0) > 0. Brak spełnienia tego warunku prowadzi zwykle do procesu uczenia który jest niestabilny (rozbieżny do nieskończoności) albo zbieżny do W*=0.

18 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 18 Prof. dr hab. Elżbieta Richter-Wąs Przykład 5 Zagadnienie uczenia jest z założenia nieliniowe, tylko jedna funkcja jest liniowo zależna od y: = y, natomiast druga ma na początku formę nieliniowa: = y 2. Wówczas: dW/dt = y W – y 2 W albo uwzględniając równanie opisujące funkcjonowanie neuronu dW/dt = X X T W - (W T X W X T ) W Wprowadzając jak poprzednio oznaczenie E{X X T | W} = C xx otrzymujemy równanie dW/dt = C xx W - (W T C xx W) W ten model uczenie może być, zaskakująco, łatwiejszy do dyskusji niż poprzednie przypadki.

19 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 19 Prof. dr hab. Elżbieta Richter-Wąs Przykład 5 Rozważmy najpierw długość wektora W. E{d ||W|| / dt | W} = 2 W T C xx W( – ||W|| 2 ) Ponieważ W T C xx W jest skalarem i W T C xx W > 0, zatem łatwo dowieść, że ||W|| zmierza do wartości /, podobnie jak dla przykładu 3. Następnie rozważmy zmienność kąta i pomiędzy wektorem W* i C i (i-tym wektorem własnym macierzy C xx ). Można wykazać, że E{d(cos i ) / dt |W} = cos i ( i – (W T C xx W) / ||W|| 2 ) czyli zachowanie wektora W jest tu analogiczne jak w przykładzie 4. W sumie rozwiązanie zmierza do punktu na powierzchni sfery o promieniu /, a położenie tego punktu wyznaczone jest przez wektor C max.

20 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 20 Prof. dr hab. Elżbieta Richter-Wąs Uogólnienie Powyższe rozważania można teraz uogólnić. Rozważmy ponownie równanie dynamiki procesu uczenia w ogólnej postaci: dW / dt = (.) X – (.) W Można sformułować następujące dwa twierdzenia które zostaną przytoczone poniżej.

21 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 21 Prof. dr hab. Elżbieta Richter-Wąs Uogólnienie Twierdzenie 1. Niech (.) = a oraz (.) = (y) gdzie y = W T X. Niech funkcja (y) spełnia warunek, że istnieje wartość oczekiwana E{ (y) | W}, a dla każdego t wektor X(t) niech będzie wektorem stochastycznym o stacjonarnych parametrach statystycznych, niezależnych od W. Wówczas, jeśli równanie dW/dt = E{ a X - (y) W |W } ma niezerowe ograniczone rozwiązanie W*, to rozwiązanie to musi mieć ten sam kierunek co - wartość średnia X(t).

22 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 22 Prof. dr hab. Elżbieta Richter-Wąs Uogólnienie Twierdzenie 2. Niech (.) = a oraz (.) = (y) gdzie y = W T X. Niech funkcja (y) spełnia warunek, ze istnieje wartość oczekiwana E{ (y) | W}, a dla każdego t wektor X(t) niech będzie wektorem stochastycznym o stacjonarnych parametrach statystycznych, niezależnych od W. Załóżmy ponadto że C xx jest macierzą kowariancji wektora X. Wówczas, jeśli równanie dW/dt = E{ a y X - (y) W |W } ma niezerowe ograniczone rozwiązanie W*, to rozwiązanie to musi mieć ten sam kierunek co C max – wektor własny macierzy C xx odpowiadający największej wartości własnej max.


Pobierz ppt "Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/2006 11/11/05Prof. dr hab. Elżbieta Richter-Wąs Wykład 7 Dynamika procesu uczenia sieci Sieci."

Podobne prezentacje


Reklamy Google