Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/2006 11/11/05Prof. dr hab. Elżbieta Richter-Wąs Wykład 8 Dobór optymalnej architektury i danych.

Podobne prezentacje


Prezentacja na temat: "Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/2006 11/11/05Prof. dr hab. Elżbieta Richter-Wąs Wykład 8 Dobór optymalnej architektury i danych."— Zapis prezentacji:

1 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05Prof. dr hab. Elżbieta Richter-Wąs Wykład 8 Dobór optymalnej architektury i danych uczących część I Sieci Neuronowe wykład przygotowany na podstawie. S. Osowski, Sieci Neuronowe w ujęciu algorytmicznym, Rozdz. 3, PWNT, Warszawa 1996.

2 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 2 Prof. dr hab. Elżbieta Richter-Wąs Dobór optymalnej architektury Przystępując do rozwiązywania problemu przy wykorzystaniu sieci neuronowej wielowarstwowej należy, oprócz dobrania danych uczących zaprojektować strukturę sieci, dopasowana do danego zagadnienia. Oznacza to wybór liczby warstw sieci i neuronów w warstwie oraz powiązań miedzy warstwami. Dobór liczby neuronów w warstwie wejściowej jest uwarunkowany wymiarem wektora danych x. Podobnie jak w warstwie wyjściowej, w której liczba neuronów równa się wymiarowi wektora zadanego d. Problemem pozostaje dobór warstw ukrytych i liczby neuronów w każdej warstwie.

3 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 3 Prof. dr hab. Elżbieta Richter-Wąs Dobór optymalnej architektury Dobór liczby neuronów w warstwach ukrytych formalnie można zdefiniować jako problem matematyczny aproksymacji funkcją wielu zmiennych. Sieć neuronowa pełni funkcje układu aproksymującego dane uczące (x,d). W trakcie uczenia dobierane są współczynniki funkcji (wektory wag poszczególnych neuronów). Na etapie odtwarzania, przy ustalonych wartościach wag, następuje zwykle obliczenie wartości funkcji aproksymującej przy danym wektorze wejściowym.

4 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 4 Prof. dr hab. Elżbieta Richter-Wąs Dobór optymalnej architektury Określenie minimalnej liczby warstw ukrytych opiera się na właściwościach funkcji aproksymujących. Każda funkcja zadana g(x) może być wyrażona jako liniowa kombinacja lokalnych impulsów, które maja wartość różną od zera jedynie w małym otoczeniu aktualnej wartości x. Funkcja impulsowa określonego kształtu może być wygenerowana jako superpozycja dwóch funkcji przesuniętych względem siebie. Dwie identyczne sigmoidy S1 i S2 przesunięte względem siebie tworzą w wyniku odcięcia impuls w taki sposób, aby pojawiał się w zadanym miejscu, miał odpowiednia szerokość i stromość narastania. Do realizacji tego typu kształtowania impulsów należy zastosować sieć neuronową dwuwarstwową, w której neurony wyjściowe mogą być liniowe.

5 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 5 Prof. dr hab. Elżbieta Richter-Wąs Dobór optymalnej architektury W przypadku sieci dwuwejściowej można w identyczny sposób ukształtować impuls na płaszczyźnie. Różnica dwóch funkcji sigmoidalnych zdefiniowanych jako funkcja dwu zmiennych i przesuniętych względem siebie tworzy grzbiet o nieskończonej długości trwania. Dodając następna parę funkcji sigmoidalnych przesuniętych względem poprzedniej i tworząc ich różnicę można otrzymać drugi grzbiet o nieskończonej długości. Dobierając parametry obu funkcji sigmoidalnych w taki sposób aby grzbiety tworzyły ze sobą pewien kat, można otrzymać w wyniku zsumowania obu grzbietów kształt dwuwymiarowego garbu. W miejscu przecięcia obu grzbietów powstaje dwuwymiarowy kształt impulsu zakończony z 4 stron odejściami ciągnącymi się do nieskończoności których usunięcie jest możliwe przez zastosowanie sigmoidalnej funkcji aktywacji neuronu z odpowiednio dobranym progiem.

6 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 6 Prof. dr hab. Elżbieta Richter-Wąs Dobór optymalnej architektury Siec neuronowa o dwu wejściach, powstała w ten sposób, zawiera warstwę ukrytą, złożoną z 4 neuronów, oraz warstwę wyjściową, zawierającą 1 neuron typu sigmoidalnego, realizujący równocześnie etap dodawania sygnałów wszystkich 4 neuronów oraz odcinania odejść przez zastosowanie funkcji aktywacji z odpowiednim progiem.

7 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 7 Prof. dr hab. Elżbieta Richter-Wąs Twierdzenie Kolmogorowa Uogólnienie na wypadek wielowymiarowy jest znany w teorii sieci neuronowych pod nazwa twierdzenia Kolmogorowa. Ograniczając się do funkcji ciągłej przekształcającej N-wymiarowy zbiór danych wejściowych x w M-wymiarowy wektor wyjściowy d, udowodniono, w sensie istnienia rozwiązania, że aproksymacja tego typu jest możliwa przy użyciu sieci o jednej warstwie ukrytej. Przy N wejściach wystarczy użycie (2 N + 1) neuronów w warstwie ukrytej. W dowodzie twierdzenia przyprowadzonym przez Kolmogorowa, dotyczącego ogólnej teorii aproksymacji, przyjęto że sygnały wyjściowe poszczególnych warstw opisane są zależnościami: z k = A j (x j +b j ) + B 0k dla neuronów warstwy ukrytej przy k=1,2, ,2N+1, oraz y i = C k g (z k +d k ) + D 0i dla neuronów warstwy wyjściowej. j=1 N N

8 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 8 Prof. dr hab. Elżbieta Richter-Wąs Twierdzenie Kolmogorowa RYSUNEK Postać sieci neuronowej odpowiadającej twierdzeniu Kolmogorowa.

9 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 9 Prof. dr hab. Elżbieta Richter-Wąs Twierdzenie Kolmogorowa Wynik uzyskany dzięki teorii Kolmogorowa jest wyjątkowo ważny, gdyż dowodzi istnienia rozwiązania problemu aproksymacji funkcji wielu zmiennych przez superpozycje wielu funkcji jednej zmiennej i daje podstawy określenia architektury sieci neuronowej. Samo proste zastosowanie twierdzenia Kolmogorowa nie prowadzi jednak do optymalnych rozwiązań. Zarówno liczba warstw jak i neuronów w warstwie w rozwiązaniach uznawanych za optymalne mogą znacznie różnić się od wyniku uzyskanego dzięki teorii Kolmogorowa. Przyjęcie różnych funkcji bazowych ma wpływ zarówno na algorytm doboru współczynników liczbowych założonych w aproksymacji, jak i na sama liczbę składników sumy.

10 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 10 Prof. dr hab. Elżbieta Richter-Wąs Zdolności uogólniania sieci wielowarstwowej Przy poszukiwaniu optymalnej architektury sieci wielowarstwowej jednym z najważniejszych zagadnień jest problem zdolności uogólniania sieci. Proces uczenia polegający na minimalizacji funkcji celu E(W) dotyczy zbioru uczącego L, dla którego E(W) = E L (W) = E(y k (W), d k ) przy czym p jest liczbą par uczących (x k, d k ), y k – wektorem odpowiedzi sieci na wymuszenie w postaci x k. Minimalizacja tej funkcji zapewnia dobre dopasowanie odpowiedzi sieci do wartości zadanych, ale dla zbioru uczącego. Rzeczywistym celem uczenia jest taki dobór architektury i parametrów sieci, który zapewni minimum błędu dla zbioru testującego, a więc zminimalizuje błąd tzw. uogólniania (generalizacji). k=1 p

11 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 11 Prof. dr hab. Elżbieta Richter-Wąs Zdolności uogólniania sieci neuronowej Podstawową cechą sieci neuronowej jest jej zdolność do uogólniania, a więc generowania właściwego rozwiązania dla danych, które nie pojawiły się w zestawie danych uczących. R T L V R – zbiór danych wejściowych T - zbiór testujący (testing) L - zbiór uczący (learning) V - zbiór danych sprawdzających (validation) Sieć zostaje poddana uczeniu na zbiorze L z bieżącym sprawdzeniem stopnia uczenia na zbiorze V. Zdolność odtworzenia zbioru L przez sieć jest miarą zdolności zapamiętania danych uczących, natomiast zdolność do generowania właściwych rozwiązań dla danych należących do zbioru T, na których sieć nigdy nie była trenowana, jest miarą zdolności uogólniania. Zakłada się że dane tworzące zarówno zbiór L jak i zbiór T są typowymi reprezentantami zbioru danych.

12 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 12 Prof. dr hab. Elżbieta Richter-Wąs Zdolności uogólniania sieci neuronowej Ilościowa miara uogólniania jest pojęciem trudnym do zdefiniowania i jest oparta na zależnościach statystycznych odnoszących się do zbiorów. Podstawową wielkością jest tu miara Vapkina-Chervonenkisa, zwana w skrócie VCdim. Miara VCdim systemu została zdefiniowana jako liczebność największego zbioru S danych wzorców, dla których system może zrealizować wszystkie możliwe 2 n dychotomii zbioru S (podział zbioru na dwie części przy pomocy lini). Na przykład VCdim dla neuronu o dwóch wejściach wynosi n=3. Można wykazać, że zbiór złożony z trzech danych uczących jest największym zbiorem, w którym można przeprowadzić podział na dwie liniowo separowalne grupy na 2 3 sposobów.

13 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 13 Prof. dr hab. Elżbieta Richter-Wąs Zdolności uogólniania sieci neuronowej Zwiększenie o jeden rozmiaru próbek uczących powoduje, że 2 neurony nie są w stanie zrealizować wszystkich 2 4 podziałów liniowo separowanych. W ogólności dla neuronu o N wejściach (wektor x N-elementowy) miara VCdim wynosi N+1. Innymi słowy, miara VCdim dla sieci rozwiązującej problem klasyfikacji binarnej oznacza maksymalna liczbę danych uczących, które mogą zostać bezbłędnie odtworzone we wszystkich możliwych konfiguracjach. Niech v L (W) oznacza błąd uczenia sieci, czyli częstotliwość wystąpienia błędu klasyfikacji podczas procesu uczenia, a P(W) – średnie prawdopodobieństwo wystąpienia błędnej klasyfikacji podczas uczenia. Oznaczając przez wartość dopuszczalnego błędu wykazano, że Prob{|P(W) –v L (W)| > } 0 jeśli liczba próbek uczących p, przy czym Prob{} oznacza prawdopodobieństwo zdarzenia.

14 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 14 Prof. dr hab. Elżbieta Richter-Wąs Zdolności uogólniania sieci neuronowej Niech oznacza prawdopodobieństwo zdarzenia sup |P(W) – v L (W) | > prawdopodobieństwo to zostało oszacowane w postaci = (2pe/h) h exp(- 2 p) przy czym e jest liczba Eulera, p-liczba próbek uczących, a h aktualna wartością VCdim. Oznaczając przez wartość spełniającą relacje przy przy zadanej wartości otrzymuje się sqrt{ h/p [ ln(h/2p) + 1] – 1/p ln( ) } Wartość reprezentuje przedział ufności. Przedział ten jest funkcją aktualnej miary VCdim, liczby próbek uczących p oraz wartości i nie zależy od błędu uczenia sieci v L (W). Miara ta obowiązuje tylko w przypadku dopuszczenia dużych wartości P(W). W

15 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 15 Prof. dr hab. Elżbieta Richter-Wąs Zdolności uogólniania sieci neuronowej Przy wymaganiu małych wartości P(W) zmodyfikowana definicja przedziału ufności ( oznaczona przez 1 ) zależy również od błędu uczenia v L (W) i przybiera postać. 1 = 0 2 ( 1 + sqrt{1 + v L (W)/ 0 2 } ) Na podstawie zdefiniowanych przedziałów ufności można stwierdzić, że w ogólności, przy małym poziomie błędu uczącego v L (W), średnie prawdopodobieństwo wystąpienia błędu klasyfikacji spełnia nierówność P(W) < v L (W) + 1 Przy bardzo dużych błędach uczenia v L (W), dokładniejszą estymatę średniego prawdopodobieństwa wystąpienia błędu klasyfikacji określa relacja P(W) < v L (W) + 0

16 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 16 Prof. dr hab. Elżbieta Richter-Wąs Zdolności uogólniania sieci neuronowej Podobnie jak błąd uczenia, definiuje się błąd uogólniania v g (W) jako częstotliwość wystąpienia błędu podczas testowania zbioru na danych testujących. Przy liczbie próbek uczących p > h (h – aktualna wartość VCdim sieci poddanej uczeniu) z prawdpodobienstwem (1- ) błąd uogólnienia jest mniejszy niż v gm (W), v g (W) v gm (W), przy czym v gm (W) = v L (W) + 1 Przy stałej liczbie próbek p i wzrastającej wartości miary VCdim błąd uczenia v L (W) maleje monotonicznie, a przedział ufności 1 rośnie. W efekcie maksymalny błąd uogólniania osiąga minimum. Zakres VCdim h opt odpowiada zbyt malej liczbie danych uczących przy aktualnej wartości VCdim. RYSUNEK

17 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 17 Prof. dr hab. Elżbieta Richter-Wąs Zdolności uogólniania sieci neuronowej W przypadku ustalonej wartości VCdim błąd uogólniania zależy w istotnym stopniu od liczby próbek uczących. Dla zapewnienia odpowiednio małej wartości tego błędu liczba próbek musi spełniać odpowiednie proporcje względem VCdim. Dla każdego rodzaju sieci jest to oddzielny problem. Szczególnie jaskrawo występuje on w przypadku sieci wielowarstwowej, gdzie liczba wag jest zwykle bardzo duża w stosunku do liczby neuronów. Trudność: oszacowanie wartości VCdim dla dowolnej sieci. W praktyce, dla uzyskania dobrych zdolności uogólniania sieci należy ograniczać liczbę neuronów ukrytych oraz powiązań miedzy neuronowych, jak również stosować takie metody wstępnego przetwarzania danych, które umożliwiają zmniejszenie wymiarowości wektora wejściowego sieci. Każdy z tych czynników, pośrednio lub bezpośrednio, wpływa na zmniejszenie efektywnej liczby wag sieci neuronowej.

18 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 18 Prof. dr hab. Elżbieta Richter-Wąs Zdolności uogólniania sieci neuronowej Wpływ sposobu i czasu uczenia na zdolności uogólniania RYSUNEK W ogólnym przypadku wraz z upływem czasu uczenia błąd uczenia v L (W) maleje i błąd testowania v V (W) również (przy ustalonej wartości liczby próbek uczących p oraz miary VCdim). Od pewnego momentu błąd testowania pozostaje stały, natomiast błąd uczenia nadal maleje. W ostatnich fazach procesu uczenia nieregularności w danych odbiegające od cech charakterystycznych danego procesu zaczynają odgrywać role i powodują wzrost błędu testowania. Tendencje te (przeuczenie) jest tym silniejsze im większe nadmiarowości wag występuje w sieci. Te niepotrzebne wagi dopasowywują się do nieregularności danych uczących, traktując je jako cechę główną. Ważne jest aby kontrolować proces uczenia przez przeplatanie go z procesem testowania, jak daleko jest zaawansowany proces uczenia.

19 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 19 Prof. dr hab. Elżbieta Richter-Wąs Zdolności uogólniania sieci neuronowej Błąd uogólniania może być oszacowany na podstawie błędu uczenia v L (W) oraz tzw. przedziału ufności 1 v G (W) v L (W) + 1 (p/h, v L ) Mała liczba próbek uczących przy ustalonej wartości h oznacza bardzo dobre dopasowanie sieci do próbek uczących ale złe uogólnienie bo w procesie uczenia nastąpił nadmiar parametrów dobieranych. Zadanie aproksymacji zostało niejako sprowadzone do zagadnienia interpolacji. RYSUNEK Rosądnym rozwiązaniem jest wówczas redukcja stopnia złożoności sieci prowadzaca do zmniejszenia miary VCdim. p=40, K=20p=40, K=5 p=40, K=2 p-ilosc probek, K – liczba neuronow w warstwie ukrytej

20 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 20 Prof. dr hab. Elżbieta Richter-Wąs Zdolności uogólniania sieci neuronowej Nie istnieje prosty związek miedzy architektur ą sieci wielowarstwowej a miarą VCdim. Można podać oszacowanie w postaci 2 int(K/2) N VCdim 2 N w (1 + log N n ) gdzie N – wymiar wektora wejściowego, K- liczba neuronów w warstwie ukrytej, N w - całkowita liczba wag w sieci, N n – całkowita liczba neuronów w sieci. Dolna granica przedziału jest w przybliżeniu równa liczbie wag łączących warstwę wejściową z warstwą ukrytą, górna granica natomiast jest większa niż dwukrotna liczba wszystkich wag w sieci. Na ogół przyjmuje się oszacowanie, że VCdim N w. Dla sieci o sigmoidalnych ciągłych funkcjach aktywacji przyjmuje się VCdim 2 N w. Szacunkowe przyjęcie VCdim umożliwia ocenę minimalnego wymiaru zbioru uczącego p. Dobre zdolności uogólniania występują jeżeli p 10 VCdim.

21 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 21 Prof. dr hab. Elżbieta Richter-Wąs Zdolności uogólniania sieci neuronowej Dobór liczby neuronów w warstwie (warstwach) ukrytych jest kluczowym zagadnieniem, decydującym o właściwościach uogólniających sieci. Są możliwe dwa kierunki działań: Zakłada się wstępną liczbę neuronów ukrytych, opartą bądź na teorii Kolmogorowa, bądź na dotychczasowych doświadczeniach, a następnie przeprowadza się redukcję w trakcie uczenia sieci. Stratuje się z minimalną liczbę neuronów ukrytych i stopniowo następuje proces ich dodawania aż do uzyskania dobrego stopnia wytrenowania na zbiorze uczącym. Proces dodawania jest zazwyczaj połączony ze sprawdzaniem zdolności do uogólniania sieci na podzbiorze V. Sam proces uczenia powinien być powiązany ze sprawdzaniem zdolności do uogólniania, a więc powinien zawierać fazę uczącą i fazę sprawdzającą. Proces uczenia kontynuuje się do chwili uzyskania minimum funkcji celu lub dopóki błąd testowania nie zacznie wzrastać (wskazując na przeuczenie).

22 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 22 Prof. dr hab. Elżbieta Richter-Wąs Metody redukcji sieci Zadaniem redukcji sieci jest zmniejszanie liczby neuronów ukrytych oraz powiązań miedzy neuronowych. Uzyskuje się w ten sposób poprawę zdolności uogólniania. RYSUNEK Wektor wejsciowy (x1, x2). Siec , 671 wag, 31 danych. Zbyt mala ilosc danych uczacych. W procesie uczenia wiekszosc wag dobrana dowolnie, przypadkowe dopasowanie do nieistotnych szczegolow. siec siec 2-2-1

23 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 23 Prof. dr hab. Elżbieta Richter-Wąs Metody redukcji sieci Podstawę redukcji sieci (pruning) stanowią algorytmy podejmujące decyzje co do obcięcia wagi lub redukcji neuronów w trakcie procesu uczenia. Większość stosowanych obecnie algorytmów może być zakwalifikowana do dwóch grup: Szacuje się wrażliwość funkcji względem wagi lub neuronu. Wagi o najmniejszej wrażliwości, wpływając najmniej na funkcje celu, są usuwane, a proces uczenia kontynuowany na tak zredukowanej sieci. Modyfikuje się funkcję celu wprowadzając kary za nieefektywną strukturę. Najczęściej do definicji funkcji celu wprowadza się składniki faworyzujące małe amplitudy wag, zmuszając algorytm uczący w trakcie uczenia do ich ciągłej redukcji. Metoda ta jest mniej efektywna niż pierwsza, bo małe wartości wag niekoniecznie muszą oznaczać mały ich wpływ na działanie sieci.

24 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 24 Prof. dr hab. Elżbieta Richter-Wąs Metody wrażliwosciowe redukcji Parametrem, na podstawie którego podejmuje się decyzje co do eliminacji wagi (redukcji złożoności sieci) jest wrażliwość funkcji celu na dane połączenie synaptyczne. Do określenia wrażliwości neuronu wprowadzamy współczynnik i dla każdej wagi. Wyjściowy sygnał –tego neuronu określa się na podstawie zmodyfikowanej zależności y i = f ( W ij j y j ) w której W ij jest waga od j-tego do i-tego neuronu, y j oraz y j oznaczają sygnały wyjściowe odpowiednich neuronów a f() oznacza funkcje aktywacji. Przy wartości i = 0 nie ma połączenia W ij, przy j = 1 występuje stan normalny pracy sieci. j

25 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 25 Prof. dr hab. Elżbieta Richter-Wąs Metody wrażliwosciowe redukcji Ważność połączenia synaptycznego opisanego waga W ij, jest oceniana na podstawie wrażliwości bezwzględnej funkcji celu E względem współczynnika j. j = - E / j dla wartości j = 1. Jest to równoznaczne wyznaczeniu składnika gradientu funkcji celu względem wagi W ij, określanym zwykłą metodą propagacji wstecznej. Waga W ij, jest obcinana jeżeli wartość j zmniejszy się poniżej określonego progu. j

26 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 26 Prof. dr hab. Elżbieta Richter-Wąs Metody wrażliwosciowe redukcji Zwykle, dla zapewnienia stabilności procesu wartość współczynnika j w k-tym cyklu oblicza się w postaci skumulowanej, korzystając ze wzoru j (k) = 0.8 j (k - 1) E / j Inna metoda redukcji wrażliwości, przyjmuje miarę półwzględną współczynnika wrażliwości S ij, zdefiniowana w postaci S ij = - (E(W f ) – E(0) ) / ( W ij,f – W ij,0 ) W ij,f gdzie W f oznacza wektor końcowy wag sieci (po zakończeniu procesu uczenia), W ij,0 jej zerowa wartość po usunięciu z sieci, E(W f ) jest oznaczeniem wartości funkcji celu po zakończeniu procesu uczenia, a E(0) wartością funkcji celu po zakończeniu procesu uczenia i usunięciu wagi W ij.

27 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 27 Prof. dr hab. Elżbieta Richter-Wąs Metody wrażliwosciowe redukcji Zamiast dodatkowych obliczeń wymaganych do wyznaczenia funkcji wrażliwości S ij, stosuje się jej aproksymacje, uwzględniającą wszystkie zmiany wagi w procesie uczenia. Przybliżona wartość S ij jest określana ze wzoru S ij - E/ W ij W ij (k) /( W ij,f – W ij,0 ) Po przeprowadzeniu procesu uczenia sieci każda waga W ij ma określoną skumulowana wartość wrażliwości S ij. Połączenia synaptyczne o najmniejszych wartościach S ij są usuwane, a siec po redukcji podlega powtórnemu douczeniu. W obu przedstawionych metodach jest możliwe usunięcie neuronu z warstwy, jeśli wszystkie wagi dochodzące lub odchodzące od niego zastaną wyeliminowane. k=1 ncnc

28 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 28 Prof. dr hab. Elżbieta Richter-Wąs Metoda ODB (Optimal Brain Damage) Punktem wyjścia jest rozwiniecie funkcji celu w szereg Taylora w otoczeniu aktualnego rozwiązania. E = g i W i + ½ [ h ii [ W ii ] 2 + h ij W i W j ] + O(|| W || 2 ) w którym W i oznacza perturbacje wagi i-tej, g i – i ty wskaźnik wektora gradientu względem tej wagi, g i = E/ W i, h ij = 2 E/ W i W j. Ponieważ obcinanie wag dotyczy sieci już wytrenowanej, składowe gradientu są bliskie zeru (wytrenowanie oznacza ze minimum funkcji celu zostało osiągnięte) i mogą zostać pominięte w rozwinięciu. Ostatni składnik również może zostać pominięty. Otrzymujemy więc przybliżony wzór E ½ [ h ii [ W ii ] 2 + h ij W i W j ] i j

29 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 29 Prof. dr hab. Elżbieta Richter-Wąs Metoda ODB (Optimal Brain Damage) Dla uproszczenia przyjmuje się że tylko diagonalne elementy h ii są istotne. Miarą ważności danego połączenia synaptycznego pozostaje współczynnik S ij = ½ 2 E/ W 2 ij W 2 ij. Obcięciu podlegają wagi o najmniejszej wartości tego współczynnika. i j

30 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 30 Prof. dr hab. Elżbieta Richter-Wąs Procedura ODB Procedurę ODB redukcji sieci można przedstawić następująco. 1. Selekcja wstępna struktury sieci neuronowej (wstępny wybór liczby neuronów w poszczególnych warstwach). 2. Przeprowadzenie programu uczenia tak dobranej sieci przy zastosowaniu dowolnej metody gradientowej uczenia 3. Określenie elementów diagonalnych h kk = 2 E/ W 2 ij odpowiadających każdej wadze W ij sieci (sumowanie po wszystkich połączeniach synaptycznych którym przypisana jest waga W ij, shared weight) 4. Obliczenie parametru S ij = ½ h kk W ij określającego znaczenie danego połączenia synaptycznego dla działania sieci. 5. Posortowanie wag wg. przypisanych im parametrów S ij i obcięcie tych których wartości są najmniejsze. 6. Kilkakrotne powtórzenie procedury 2-5. Metoda ODB uważana jest za jedną z najlepszych metod redukcji sieci spośród metod wrażliwosciowych.

31 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 31 Prof. dr hab. Elżbieta Richter-Wąs Procedura ODB Przykład zastosowania procedury ODB dla sieci rozpoznającej ręcznie pisane kody pocztowe. Sieć miała 10 5 połączeń synaptycznych, którym zostało przypisane 2578 różnych wag (część wag była wspólna). RYSUNEK dla danych uczacych dla danych testujacych bez douczenia po obcieciu wag douczenie po obcieciu wag blad

32 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 32 Prof. dr hab. Elżbieta Richter-Wąs Procedura ODB Przy zastosowaniu metody ODB uzyskuje się bardzo dobre własności uogólniające sieci, niewiele odbiegające od błędu uczenia. Szczególnie dobre wyniki uzyskuje się dzięki powtórzeniu douczenia sieci po obcięciu najmniej znaczących wag. Ulepszeniem metody ODB jest opracowana 3-lata pozniej metoda OBS ( Optimal Brain Surgeon ). Punktem wyjscia jest rozwiniecie w szereg Taylora (podobnie jak w metodzie ODB). Podstawowa roznica metody OBS w stosunku do ODB jest inna definicja wspolczynnika asymetrii (ktory sluzy do podjecia decyzji o eleminacji danego polaczenia synaptycznego) oraz korekta wag sieci po wyeliminowaniu wagi o najmniejszym znaczeniu. Osiagniete uprzednio minimum zostaje zachowane. Metoda ta ma znacznie wieksza zlozonosc obliczeniowa.

33 Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/ /11/05 33 Prof. dr hab. Elżbieta Richter-Wąs kontynuacja na nastepnym wykladzie


Pobierz ppt "Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2005/2006 11/11/05Prof. dr hab. Elżbieta Richter-Wąs Wykład 8 Dobór optymalnej architektury i danych."

Podobne prezentacje


Reklamy Google