Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Dynamika procesu uczenia sieci

Podobne prezentacje


Prezentacja na temat: "Dynamika procesu uczenia sieci"— Zapis prezentacji:

1 Dynamika procesu uczenia sieci
Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ /2006 Sieci Neuronowe Wykład 7 Dynamika procesu uczenia sieci wykład przygotowany na podstawie. R. Tadeusiewicz, “Sieci Neuronowe”, Rozdz. 9. Akademicka Oficyna Wydawnicza RM, Warszawa 1993. Elzbieta Richter-Was

2 Dynamika procesu uczenia
W czasie dotychczasowych wykładów dyskutowaliśmy rozmaite modele sieci neuronowych i różne związane z nimi techniki uczenia. Uczenie (chwilowo rozważamy go w stosunku do pojedynczego neuronu) polega na znajdowaniu nowych wartości wektora wag W’ na podstawie poprzednich wartości tego wektora wag W oraz pewnych dodatkowych danych (wektora wejściowego X, sygnału wyjściowego y, wielkości zadanej z itp.) W wyniku procesu uczenia wektor wag zmieniał się, w j-tym kroku uczenia wektor wag wynosił W(j). Rozważmy proces uczenia jako proces ciągły, wprowadzając wektor wag jako funkcje czasu W(t), a regułę uczenia jako równanie różniczkowe wiążące zmiany tego wektora z czynnikami decydującymi o procesie uczenia.

3 Dynamika procesu uczenia
Wzorując się na podejściu Kohonena (1989), ogólną postać tego równania można zapisać dW / dt = f(.) X – g(.) W gdzie f(.), g(.) są pewnymi (być może nieliniowymi) skalarnymi funkcjami X, W oraz y. Składnik f(.) X odpowiedzialny jest za proces nabywania nowych doświadczeń przez sieć; powoduje on w ogólnym przypadku całkowanie sygnałów wejściowych i przyczynia się do wytworzenia wewnętrznej reprezentacji nabywanej przez sieć umiejętności. Drugi składnik odpowiada za proces zapominania starych i nie aktualnych umiejętności, dzięki czemu mimo stałego dopływu informacji X(t) nie dochodzi do przepełnienia pamięci.

4 Przykład 1 Funkcje stałe: f = a , g = b dW / dt = a X – b W
Rozwiązanie ma ogólna postać: W(t) = e-bt [ W(0) + a 0 ebt X(t) dt ] Można mu przypisać prosta interpretację: Uczenie prowadzi do wyznaczenia ruchomej średniej ważonej (ważonej wykładniczą funkcją czasu) wejściowego wektora X(t). Początkowa wartość W(0) jest szybko zapominana. t

5 Przykład 2 Funkcje stałe i liniowe: f = a y , g = b
dW / dt = a y X – b W Jest to pierwszy nietrywialny model procesu uczenia najniższego rzędu. Sygnał wyjściowy neuronu y ingeruje w proces uczenia w najprostszy z możliwych sposobów, wywodzący się z klasycznych prac Hebba. Zakładając że neuron jest typu ADALINE, mamy y=WTX, a zatem dW / dt = (a X XT – bI) W gdzie I jest macierzą jednostkowa o wymiarach [n x n]. Równanie można zapisać w ogólniejszej postaci: dW / dt = -b (I - l X XT) W gdzie l = a/b. Własności tego równania łatwiej jest dyskutować dla dyskretnej skali czasu. t

6 Przykład 2 Wprowadzamy dyskretną skale czasu.
Kolejne wartości wektora W(t) (gdzie t=0,1,2,...) można wyznaczać z iteracyjnego równania: W(t+1) = [(1-b) I + a X(t) XT(t)] W(t) Oznaczając występujący przy W(t) zależny od czasu (numeru kroku t) macierzowy mnożnik w tym równaniu przez P(t) otrzymujemy proste równanie dynamiki procesu uczenia: W(t+1) = P(t) W(t) gdzie macierz P(t) wyznaczana jest za pomocą zależności P(t) = (1-b) I + aX(t) XT(t)

7 Przykład 2 Rozwiązanie opisane równania daje dynamikę procesu uczenia w formie: W(t+1) = [  P(k) ] W(0) W ogólnym przypadku równanie to ma dość niekorzystne właściwości: albo jest rozbieżne (wartości W(t) “eksplodują” i osiągają nieskończenie duże wartości), albo zbiega się do wektora zerowego. Rozważaną metodę uczenia wolno stosować jedynie do modelowania systemów o skończonym i relatywnie krótkim czasie uczenia. Opisana metoda może być wygodna jako technika aproksymująca zachowanie systemów o znacznie większym stopniu złożoności, które charakteryzują się asymptotyczną stabilnością, ale są znacznie trudniejsze do analizy i kosztowniejsze do symulacji. t k=0 t

8 Przykład 2 Przy zaniedbaniu efektu “zapominania” (tzn. przy założeniu b=0) rozwiązanie równania uczenia może być aproksymowane za pomocą wzoru W(t) = [  + a  X(t) XT(t) dt ] W(0) co oznacza że wartości współczynników wagowych są w tym wypadku zależne tylko od wartości macierzy korelacji wejściowych sygnałów X(t). To jest ważny fakt, biorąc pod uwagę jak często i w jak różnych kontekstach wykorzystywane są macierze korelacji w przetwarzaniu sygnałów. Podane przybliżone rozwiązanie jest dalej rozbieżne. Można jednak wykazać, że W(t) dąży do wektora własnego macierzy korelacji sygnałów X(t) odpowiadającego największej wartości własnej w związku z czym może zostać wykorzystany dla dowolnego konkretnego t dla określenia np. składowych kanonicznych sygnału. t k=0

9 Przykład 2a Opisany przypadek liniowej funkcji f i stałej funkcji g ma pewien szczególnie ważny podprzypadek, uzyskiwany przy założeniu a < 0 i b = 0. Dla zaznaczenia specyfiki, jawnie stosujemy znak minus i tego rodzaju proces uczenia opisujemy wzorem: dW/dt = - a y XT , y = WT X Zachowanie takiego neuronu można łatwo wydedukować na podstawie rozważenia rozwiązania W(t) otrzymanego dla X(t)=const dla t>t0 . Rozwiązanie to ma postać: WT(t) = WT(t0) [ I - (t) X XT] gdzie (t) = || X ||-2 ( 1 – e-a||X||2(t-t0) ) łatwo zauważyć że 0  (t)  || X ||-2 i przy niezmiennym sygnale wejściowym “ślad pamięciowy” wejściowych wrażeń w miarę upływu czasu systematycznie się zaciera. Takie zjawisko znane jest pod nazwa “wykrywacza nowości”.

10 Przykład 3 Jedna funkcja jest liniowa, a druga jest stałą, tylko odwrotnie niż w omówionym poprzednio przykładzie: f = a i g =by. Wówczas: dW/dt = a X – b y W po wstawieniu liniowego równania opisującego funkcjonowanie neuronu ( y =WT X ) otrzymujemy następujące równanie dynamiki uczenia: dW/dt = ( a I – b W WT ) X które jest nieliniowe ze względu na W, a więc nie może być w ogólnym przypadku rozwiązane analitycznie. Jest to szczególna postać równania Riccatiego, którego całka nie jest znana w postaci analitycznej. Oczywiście, pozostaje do dyspozycji rozwiązanie numeryczne, jednak jego przydatność jest bardzo ograniczona.

11 Przykład 3 Możliwe jest jednak uzyskanie pewnych ogólnych informacji o wartościach W(t) przy dość oczywistych i możliwych do spełnienia w praktyce założeniach upraszczających. Wymnażając obie strony podanego równania przez 2WT otrzymujemy równanie 2 WT dW/dt = 2 WT (a I – b WWT) X jest to równanie skalarne a niewiadoma jest ||W||2. Rozpisując dalej otrzymujemy d/dt(||W||2) = 2y (a-b) ||W||2) Dla y > 0 rozwiązanie tego równania jest zbieżne do wartości ||W*||2 = a/b, co można interpretować w ten sposób, że długość wektora ||W||2 nie ulega w trakcie uczenia istotnym zmianom, natomiast istota uczenia polega na tym, że wektor W jest “obracany” w taki sposób, aby dążył do uzgodnienia swego kierunku z kierunkiem wektora X.

12 Przykład 3 Zagwarantowanie spełnienia warunku y > 0 jest realizowane przez nieliniowa funkcje f(e), która charakteryzuje się z reguły “odcinaniem” ujemnych sygnałów y. Zagadnienie obrotu wektora W w celu uzgodnienia jego położenia z kierunkiem wektora X (a dokładniej z kierunkiem oczekiwanego (średniego) położenia wektora X) rozważymy jako problem statystyczny. Wprowadźmy pojecie warunkowej wartości oczekiwanej E{ * | W} oznaczająca uśredniona po zbiorze wszystkich możliwych realizacji procesu uczenia wartość obiektu *. Np. można zapisać, ze E{ X | W} = <X> , gdzie <X> oznacza wartość średnia X, ponieważ X jest statystycznie niezależne od W. Rozważmy teraz zmienność kata Q pomiędzy wektorami <X> i W w toku procesu uczenia.

13 Przykład 3 Ponieważ z definicji : cos Q = <X>T W / ( ||<X>|| ||W|| ) wobec tego E{ d (cos Q ) / dt | W} = E{ d/dt (<X>T W / ( ||<X>|| ||W|| ) | W} Rozpisując dalej tą równość otrzymujemy (po kilku przeksztalceniach) postać E{ d (cos Q ) / dt | W} = - a ||<X>|| / ||W|| sin Q Oznacza to, że dla niezerowych wartości <X>, uśredniany w toku procesu uczenia kierunek wektora W zmierza monotonicznie do kierunku wyznaczonego przez <X>. Ponieważ długość jest zbieżna do pewnej ustalonej wartości ||W*||2 = a/b, zatem można wykazać że, ogólnie w procesie uczenia, W zmierza do W* = a / ( b ||<X>|| ) <X> który jest w istocie znormalizowanym wektorem <X> o znormalizowanej długości a /  b .

14 Przykład 3 Rozważmy tzw. punkt stały równania dynamiki uczenia, to znaczy taką wartość W*, dla której rozwiązanie równania dW/dt = (a I – b WWT) X spełnia warunek dW/dt = 0. Szukamy rozwiązania w postaci W* = r <X>, gdzie <X> oznacza wartość średnią X. Podstawiamy odgadniętą formułę, otrzymując równanie a <X> - br <X> r(<X>T<X>) = 0 czyli a<X> = br2 ||<X>|| <X> a więc r =(a)/ (b) / ||<X>|| co daje W* = (a)/ (b) / ||<X>|| <X>

15 Przykład 4 Zagadnienie uczenia jest dwuliniowe, obie rozważane funkcje są liniowo zależne od y: f = ay, g=by. Wówczas dW/dt = ay X – by W albo, uwzględniając równanie opisujące funkcjonowanie neuronu dW/dt = a X XT W – by W WT X wprowadzając oznaczenia: E{X|W} = <X> oraz E{XXT|W} = Cxx gdzie Cxx jest macierzą kowariancji składowych wektora X, otrzymujemy równanie. dW/dt = a Cxx W – b (<X>T W) W Jest to równanie Bernouliego drugiego stopnia. Można wykazać że jego rozwiązaniem są wektory własne macierzy kowariancji Cxx.

16 Przykład 4 Spróbujmy poszukać punktu stałego W* w postaci W* = r Ci, gdzie Ci jest wektorem własnym macierzy Cxx odpowiadającym wartości własnej li : Cxx Ci = li Ci Wówczas równanie dW/dt = 0 prowadzi do zależności: r a li Ci – r2 b (<X>T Ci) Ci = 0 której rozwiązanie ma formę r = ali / (b <X>T Ci) i ostatecznie W* = ali / (b <X>T Ci) Ci Podane wyżej rozwiązania mogą być stabilne lub niestabilne.

17 Przykład 4 Rozwiązanie opisujące przebieg procesu uczenia W(t) będzie dążyć do wartości W* = r Cmax , gdzie Cmax jest wektorem własnym odpowiadającym wartości własnej lmax. Warunkiem jest aby w każdym momencie t zachodziła zależność CTmax W(t) > 0. Biorąc pod uwagę fakt, że wektor Cmax jest a priori nie znany trudno jest zagwarantować spełnienie tego warunku. Podstawowa trudność pojawia się przy ustalaniu punktu startowego dla procesu uczenia W(0), ponieważ oczywiście trzeba zapewnić spełnienie warunku CTmax W(0) > 0. Brak spełnienia tego warunku prowadzi zwykle do procesu uczenia który jest niestabilny (rozbieżny do nieskończoności) albo zbieżny do W*=0.

18 Przykład 5 Zagadnienie uczenia jest z założenia nieliniowe, tylko jedna funkcja jest liniowo zależna od y: f = a y, natomiast druga ma na początku formę nieliniowa: g = b y2. Wówczas: dW/dt = a y W – b y2 W albo uwzględniając równanie opisujące funkcjonowanie neuronu dW/dt = a X XT W - b (WT X W XT) W Wprowadzając jak poprzednio oznaczenie E{X XT | W} = Cxx otrzymujemy równanie dW/dt = a Cxx W - b (WT Cxx W) W ten model uczenie może być, zaskakująco, łatwiejszy do dyskusji niż poprzednie przypadki.

19 Przykład 5 Rozważmy najpierw długość wektora W.
E{d ||W|| / dt | W} = 2 WT Cxx W( a – b ||W||2 ) Ponieważ WT Cxx W jest skalarem i WT Cxx W > 0, zatem łatwo dowieść, że ||W|| zmierza do wartości a/b, podobnie jak dla przykładu 3. Następnie rozważmy zmienność kąta Qi pomiędzy wektorem W* i Ci (i-tym wektorem własnym macierzy Cxx). Można wykazać, że E{d(cosQi) / dt |W} = a cos Qi ( li – (WTCxxW) / ||W||2 ) czyli zachowanie wektora W jest tu analogiczne jak w przykładzie 4. W sumie rozwiązanie zmierza do punktu na powierzchni sfery o promieniu a/b , a położenie tego punktu wyznaczone jest przez wektor Cmax .

20 Uogólnienie Powyższe rozważania można teraz uogólnić.
Rozważmy ponownie równanie dynamiki procesu uczenia w ogólnej postaci: dW / dt = f(.) X – g(.) W Można sformułować następujące dwa twierdzenia które zostaną przytoczone poniżej.

21 Uogólnienie Twierdzenie 1.
Niech f(.) = a oraz g(.) = g(y) gdzie y = WT X. Niech funkcja g(y) spełnia warunek, że istnieje wartość oczekiwana E{g(y) | W}, a dla każdego t wektor X(t) niech będzie wektorem stochastycznym o stacjonarnych parametrach statystycznych, niezależnych od W. Wówczas, jeśli równanie dW/dt = E{ a X - g(y) W |W } ma niezerowe ograniczone rozwiązanie W*, to rozwiązanie to musi mieć ten sam kierunek co <X> - wartość średnia X(t).

22 Uogólnienie Twierdzenie 2.
Niech f(.) = a oraz g(.) = g(y) gdzie y = WT X. Niech funkcja g(y) spełnia warunek, ze istnieje wartość oczekiwana E{g(y) | W}, a dla każdego t wektor X(t) niech będzie wektorem stochastycznym o stacjonarnych parametrach statystycznych, niezależnych od W. Załóżmy ponadto że Cxx jest macierzą kowariancji wektora X. Wówczas, jeśli równanie dW/dt = E{ a y X - g(y) W |W } ma niezerowe ograniczone rozwiązanie W*, to rozwiązanie to musi mieć ten sam kierunek co Cmax – wektor własny macierzy Cxx odpowiadający największej wartości własnej lmax.


Pobierz ppt "Dynamika procesu uczenia sieci"

Podobne prezentacje


Reklamy Google