Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Inteligencja Obliczeniowa Perceptrony wielowarstwowe i wsteczna propagacja błędów. Wykład 10 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google:

Podobne prezentacje


Prezentacja na temat: "Inteligencja Obliczeniowa Perceptrony wielowarstwowe i wsteczna propagacja błędów. Wykład 10 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google:"— Zapis prezentacji:

1 Inteligencja Obliczeniowa Perceptrony wielowarstwowe i wsteczna propagacja błędów. Wykład 10 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W Duch

2 Co było Perceptron jednowarstwowy. Uczenie się perceptronów Nieliniowa reguła delta Adatron

3 Co będzie Perceptrony wielowarstwowe. Algorytm wstecznej propagacji błędów (BP) Metody minimalizacji Ulepszenia BP Problem: perceptrony radzą sobie tylko z problemami, które są liniowo separowalne, nie można więc rozwiązać prostego zagadnienia typu XOR, a więc prawie żadnego zagadnienia w wysokowymiarowych przypadkach.

4 XOR – rozwiązanie najprostsze Najprostsze rozwiązanie, ale jak to uczyć? Co można zrobić? Najpierw utworzyć jakąś reprezentację wewnętrzną za pomocą perceptronów, ale jaką? Założyć reprezentację wewnętrzną a priori - zgadywaną dla każdego problemu niezależnie. Zastosować konkurencyjne uczenie się bez nadzoru; użyteczne elementy same się uaktywnią, chociaż nie ma na to gwarancji. Uczyć odpowiedniej reprezentacji wewnętrznej dla danej klasy problemów – trzeba znaleźć efektywny algorytm uczenia.

5 XOR z warstwą ukrytą rozwiązuje XOR

6 Warstwa ukryta i granice decyzji

7 Sieć MLP

8 MLP = Multilayer Perceptron. Perceptron 3-warstwowy z warstwą wejściową, ukrytą i wyjściową - oznaczenia.

9 MLP - oznaczenia Liczba warstw M=3 X i (l) - całkowity sygnał dochodzący do elementu i należącego do warstwy l o i (l) - sygnał wychodzący z elementu i należącego do warstwy l W ij (l) - wagi łączące element i należący do warstwy l-1 oraz element j z warstwy l X j (l) = i W ij (l) o i (l-1) aktywacja neuronu j w warstwie l. o j (l) = (X j (l) ) sygnał wysyłany z tego neuronu F i (X;W) = o i (M) funkcja realizowana przez MLP

10 BP-1 Algorytm wstecznej propagacji błędów (1974, 1986) Miara błędu dla wzorca p i N o wyjść Gradientowa reguła minimalizacji błędu równoważna jest regule delta. Obliczenia gradientu dla warstwy zewnętrznej:

11 Funkcja błędu w 2D Problem 1D bez warstwy ukrytej.

12 BP-2 Błąd lokalny dla warstwy M Zmiana wag w warstwie wyjściowej: Wagi łączące neuron j i neuron k w warstwie M-1: Gradient:

13 BP-3 Ponieważ to gradient: a zmiana wag: Struktura wzoru dla kolejnych warstw jest taka sama.

14 BP- podsumowanie Funkcja realizowana przez sieć: Inicjalizacja: przypadkowe małe wartości wag. Propagacja sygnałów od wejścia do wyjścia. Propagacja korekcji błędów wstecz: rekursywne obliczanie W ij.

15 Sigmoidy Logistyczna funkcja aktywacji: Próg, nachylenie T Pochodna ma max dla o=0.5: Błąd wyjściowego elementu:

16 XOR – dynamika uczenia

17 Funkcja błędu w 2D z PCA Patrząc w kierunku największej wariancji wag możemy zrobić projekcję funkcji błędu – dla XOR jest ona dość skomplikowana. Przeskalowanie kierunku c2 pokazuje więcej szczegółów.

18 Własności MLP MLP jest uniwersalnym aproksymatorem: 1 warstwa – f. ciągłe 2 warstwy – f. nieciągłe (dowód via tw. Stonea- Weierstrassa) Szybkość zbieżności z sigmoidami: O(1/n); z wielomianami O(1/n 1/d ) W niektórych problemach inne funkcje dają szybsza zbieżność. Parametry sieci: architektura, liczba warstw, liczba neuronów. Końcowa warstwa: perceptron. Neurony ukryte: transformacja nieliniowa do przestrzeni odwzorowań, tworząca nowe cechy za pomocą nieliniowych kombinacji.

19 Przykłady zbieżności dla XOR Architektura 2-2-2, rozmyte klastry XOR. W p-ni wyjściowejw warstwie ukrytej

20 Uczenie MLP Parametry uczenia: szybkość uczenia bezwładność Pozwala usunąć szybkie oscylacje, zmienia efektywną stałą uczenia: dla małych zmian wag. sposób prezentacji danych Losowa prezentacja – element stochastyczny, uczenie on-line. Ustalona kolejność. Poprawki po całej epoce – po kilku prezentacjach też warto.

21 Problemy i ulepszenia. Niewłaściwie dobrana architektura sieci. Minima lokalne i plateau, wąskie rynny. Wpływ nowych wzorców na już nauczone – zapominanie. Szybkość uczenia – zagadnienie jest NP-trudne. Schematy adaptacji dla stałej uczenia: zwiększać o a=const dla malejącego błędu, zmniejszać o b dla rosnącego błędu. Duże kroki na powierzchni gładkiej, drobne kroki na skomplikowanej. Lokalne stałe uczenia się, różne dla różnych węzłów - kosztowne.

22 Ulepszenia MLP Szybsze procedury minimalizacji błędu. Modyfikacje schematu wstecznej propagacji. Unikanie minimów lokalnych – różne możliwości. Funkcje kosztu, niekoniecznie MSE. Inicjalizacja parametrów, lepszy start. Regularyzacja i zwiększenie zdolność do generalizacji sieci - wybór modelu o odpowiedniej złożoności. Sieci konstruktywistyczne/ontogeniczne, dostosowujące złożonośc do danych. Funkcje transferu, nie tylko sigmoidy.

23 Co dalej? Perceptrony wielowarstwowe: ulepszenia, algorytmy konstruktywistyczne. Sieci Hopfielda Sieci Hebbowskie i modele mózgu Samoorganizacja Perceptrony wielowarstwowe

24 Koniec wykładu 10 Dobranoc …


Pobierz ppt "Inteligencja Obliczeniowa Perceptrony wielowarstwowe i wsteczna propagacja błędów. Wykład 10 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google:"

Podobne prezentacje


Reklamy Google