Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Przeuczenie Janusz A. Starzyk Wyzsza Szkola Informatyki i Zarzadzania w Rzeszowie W oparciu o wyklad Prof. Geoffrey Hinton University of Toronto Inteligentne.

Podobne prezentacje


Prezentacja na temat: "Przeuczenie Janusz A. Starzyk Wyzsza Szkola Informatyki i Zarzadzania w Rzeszowie W oparciu o wyklad Prof. Geoffrey Hinton University of Toronto Inteligentne."— Zapis prezentacji:

1 Przeuczenie Janusz A. Starzyk Wyzsza Szkola Informatyki i Zarzadzania w Rzeszowie W oparciu o wyklad Prof. Geoffrey Hinton University of Toronto Inteligentne Systemy Autonomiczne

2 Dane treningowe zawierają informacje o prawidłowościach w odwzorowaniu wejścia na wyjście. Ale zawieraja również szum –Wartości wynikowe mogą być zawodne. –Jest błąd próbkowania. Będą przypadkowe prawidłowości obserwowane tylko w wybranych przykładach treningowych. Kiedy dobieramy model, nie wiemy które regularności są prawdziwe a które spowodowane błędem próbkowania. –Więc jest dopasowanie do obu regularności. –Jeżeli model jest bardzo elastyczny to jest w stanie bardzo dobrze aproksymować błąd próbkowania. Jest to zagrożenie. Problem nadmiernego dopasowania - przeuczenie

3 Przeuczenie Cel uogólnienia: Przeuczenie: –prowadzi do nadmiernej liczby ukrytych neuronów –przecenia złożoność funkcji –degraduje zdolność uogólniania Dylemat progu i warjancji (bias/variance dilemma) dane treningowe (x, y) Model trening MLP nowe dane (x) y Model

4 Pożądane są : Ilościowa miara niewyuczonej informacji w sygnale bledu e train Automatyczne rozpoznanie przeuczenia Przeuczenie

5 Zapobieganie przeuczeniu Użycie modelu, który posiada właściwe zdolności: – wystarczające do modelowania prawdziwych regularności –niewystarczające do modelowania również złudnych regularności (zakładając, że są słabsze). Standardowe drogi ograniczania zdolności sieci neuronowych: –Ograniczanie liczby jednostek ukrytych. –Ograniczanie wielkości wag. –Zatrzymanie nauki zanim dojdzie do przeuczenia.

6 Ograniczanie wielkości wag Zmniejszanie wag - dodanie dodatkowego członu do funkcji kosztów który penalizuje sume kwadratow wag (regularyzacja) –Otrzymane wagi sa małe chyba ze mają duże pochodne błędów. w C

7 Zmniejszanie wag przez zaszumianie wejścia Zmniejszanie wag redukuje efekt szumu na wejściach. –Wariacja szumu jest wzmacniania przez wagi Wzmocniony szum dodaje sie do sumy kwadratow błędu. –Więc minimalizacja sumy kwadratow błędu przyczynia się do zmniejszenia kwadratow wag gdy dane wejściowe są zaszumione. To staje się bardziej skomplikowane dla sieci nieliniowych. i j

8 Inne rodzaje karania wag Czasami lepiej działa penalizowanie wartości absolutnych wag. –To zeruje pewne wagi co pomaga w interpretacji. Czasami jest lepiej użyć funkcji kary, która ma nieistotny wpływ na duże wagi. 0 0

9 Efekt zmniejszania wag Zapobiega używaniu wag, których sieć nie potrzebuje. –Potrafi to często ulepszać bardzo generalizację. –Pomaga zapobiec przyblizaniu błędu próbkowania –To wygładza nieco model w którym dane wyjściowe zmieniają się dużo wolniej od wejściowych Jeśli sieć ma dwa bardzo podobne wejścia to preferuje rozdzielenie wag po połowie na każde z nich niż przypisanie całej do jednego z nich w/ 2 w 0

10 Decydowanie jak bardzo ograniczyć mozliwości sieci. Jak zdecydowac, które ograniczenie użyć i jak silnie ma byc to ograniczenie? –Jeśli używamy danych treningowych to otrzymujemy zakłamane przewidywanie stopy błędów, którą otrzymalibyśmy przy nowych danych. W takim razie użyj oddzielnego zbioru walidacyjnego aby dokonać wyboru modelu.

11 Wykorzystanie zbioru walidacyjnego Podziel całkowity zestaw danych na 3 podzbiory : –Dane treningowe używane do uczenia parametrów modelu. –Dane walidacyjne nie są używane do uczenia ale są wykorzystywane decydowania jaki typ modelu i jaki poziom regularyzacji pracuje najlepiej. –Dane testowe sa uzyte do otrzymania końcowej bezstronnej oceny pracy sieci. Spodziewamy sie ze ta ocena bydzie gorsza niż w przypadku danych walidacyjnych. Moglibyśmy następnie podzielić ponownie całkowity zbiór danych aby otrzymać inną bezstronną ocenę prawdziwej stopy błędów.

12 Unikanie przeuczenia: krzyżowa-walidacja i wczesne zatrzymanie Wszystkie dostępne dane treningowe (x, y) dane treningowe (x, y) dane walidacyjne (x, y) Błąd treningu e train Błąd walidacji e val Liczba ukrytych neuronów Błąd dopaso wania e train e val MLP trening MLP walidacja Optymalna liczba Kryterium zatrzymania: e val zaczyna się zwiększać lub e train i e val zaczynają się rozbiegać Zapobieganie przeuczeniu

13 Jak podzielić dostępne dane (utrata danych treningowych)? wszystkie dostępne dane treningowe (x, y) dane treningowe (x, y) dane walidacyjne (x, y) liczba ukrytych neuronów błąd dopaso wania e train e val Optymalna liczba Kiedy przestać zwiększać złożoność sieci? strata danych Czy błąd walidacji może wiarygodnie zlokalizować minimum błędu generalizacji? Zapobieganie przeuczeniu

14 Sieci powiązane Kiedy liczba danych treningowych jest ograniczona, potrzebujemy uniknąć przeuczenia –Uśrednienie predykcji wielu różnych sieci jest dobrym kierunkiem aby tego dokonać. –Działanie jest o wiele lepsze gdy sieci bardzo się od siebie różnią. Jeśli dane są istotnie mieszaniną różnych reżimów to pomocnym jest zidentyfikowanie tych reżimów i użycie oddzielnego, prostego modelu dla każdego z nich. –Chcemy użyć pożądanych danych wyjściowych aby zgrupowac dane w odpowiednich reżimach. –Samo grupowanie (clustering) danych wejściowych nie wystarcza

15 Jak połączony predyktor wypada w porównaniu z predyktorami indywidualnymi We wszystkich rodzajach zadaniach, pewne indywidulane predyktory bedą lepsze od predyktorów połączonych. –Ale rozne predyktory będą lepsze w różnych zadaniach. Jeśli predyktory indywidualne różnią się bardzo, wtedy predyktor połączony jest zazwyczaj lepszy od wszystkich predyktorów indywidualnych jeśli uśrednimy wyniki testów. –Więc jak sprawić aby indywidualne predyktory różniły się? (bez czynienia ich gorszymi indywidualnie).

16 Metody zroznicowania predyktorów Poleganie na tym ze wyuczony algorytm zbiega się do różnych lokalnych optimum przy każdym uruchomieniu –Niegodne prawdziwego informatyka (ale definitywnie warte spróbowania). Wykorzystanie różnych rodzajów modeli : –Różnych architektur –Różnych algorytmów Użycie różnych danych treningowych dla różnych modeli: –Bagging: Ponowne pobieranie próbki (z zamianą) ze zbioru treningowego: a,b,c,d,e -> a c c d d –Boosting: Dopasownie za kazdym razem jednego modelu. Zmien wage kazdej danej treningowej w zaleznosci od tego jak zle jest ona przewidziana przez juz opracowane modele. Prowadzi to do efektywnego wykorzystania czasu obliczen bo nie musi poprawiac modeli opracowanych wczesniej.

17 Probkowane dane: wartosc funkcji + szum Sygnal bledu: blad aproksymacji + szum Nie dopasowywacNalezy zmniejszyc Zalozenie: funkcja ciagla + szum bialy (WGN) Signal-to-noise ratio figure (SNRF): energia sygnalu/energia szumu Porownaj SNRF e i SNRF WGN Kiedy zatrzymac uczenie – ? Czy jest jeszcze niewyuczony sygnal Czy tez sygnal bledu jest szumem Zapobieganie przeuczeniu przez Signal-to-noise ratio figure (SNRF)

18 SNRF– przypadek jednowymiarowy Dane treningowe i funkcja aproksymująca Sygnał błędu składowa błędu aproksymacji składowa szumu + Jak zmierzyć poziom tych 2 składowych?

19 SNRF – przypadek jednowymiarowy Wysoka korelacja między sąsiadują- cymi próbkami sygnałów Dla szumu Energia sygnalu

20 SNRF – przypadek jednowymiarowy

21 Badanie hipotezy: 5% poziom ważności

22 Walidacja funkcjonalności wykorzystująca 10 iteracji x y dane testowe wartość zbliżona Walidacja funkcjonalności wykorzystująca 200 iteracji x y dane testowe wartość zbliżona Rezultaty eksperymentów Optymalizowanie liczby iteracji Dane znieksztalcone szumem 0.4sinx+0.5

23 Optymalizacja z wykorzystaniem SNRF Optymalizacja rozkladu wielomianu x y Training data Validation data Desired function order of fitting polynomial Training error Validation error Generalization error optimum

24 Pytania?

25 Przeuczenie Uzupelnienia

26 SNRF – multi-dimensional case Signal and noise level: estimated within neighborhood sample p M neighbors

27 All samples SNRF – multi-dimensional case

28 M=1 threshold multi-dimensional (M=1) threshold one-dimensional SNRF – multi-dimensional case

29 Optimization using SNRF Noise dominates in the error signal, Little information left unlearned, Learning should stop SNRF e < threshold SNRF WGN Start with small network Train the MLP e train Compare SNRF e & SNRF WGN Add more hidden neurons Stopping criterion: SNRF e < threshold SNRFWGN

30 Optimization using SNRF Set the structure of MLP Train the MLP with back-propagation iteration e train Compare SNRF e & SNRF WGN Keep training with more iterations Applied in optimizing number of iterations in back-propagation training to avoid overfitting (overtraining)

31 number of hidden neurons SNRF SNRF of error signal vs. number of hidden neurons SNRF of error signal threshold Training MSE and ValidationMSE vs. number of hidden neurons number of hidden neurons MSE training performance validation performance Experimental results Optimizing number of hidden neurons two-dimensional function

32 Training MSE and Validation MSE vs. number of hidden neurons number of hidden neurons (a) MSE Training MSE Validation MSE Experimental results Mackey-glass database Every consecutive 7 samples the following sample MLP

33 Experimental results WGN characteristic

34 Training MSE and Validation MSE vs. number of hidden neurons number of hidden neurons MSE training performance validation performance 6th degree polynomial fit Experimental results Puma robot arm dynamics database 8 inputs (positions, velocities, torques) angular acceleration MLP

35 SNRF Approach to Overfitting Quantitative criterion based on SNRF to optimize number of hidden neurons in MLP Detect overfitting by training error only No separate test set required Criterion: simple, easy to apply, efficient and effective Can be used to optimize other parameters of neural networks classification or fitting problems


Pobierz ppt "Przeuczenie Janusz A. Starzyk Wyzsza Szkola Informatyki i Zarzadzania w Rzeszowie W oparciu o wyklad Prof. Geoffrey Hinton University of Toronto Inteligentne."

Podobne prezentacje


Reklamy Google