Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
Katedra Informatyki Stosowanej UMK
Inteligencja Obliczeniowa Perceptrony wielowarstwowe i wsteczna propagacja błędów. Wykład 10 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W. Duch (c) Tralvex Yeap. All Rights Reserved
2
Co było Perceptron jednowarstwowy. Uczenie się perceptronów
Nieliniowa reguła delta Adatron (c) Tralvex Yeap. All Rights Reserved
3
Co będzie Perceptrony wielowarstwowe.
Algorytm wstecznej propagacji błędów (BP) Metody minimalizacji Ulepszenia BP Problem: perceptrony radzą sobie tylko z problemami, które są liniowo separowalne, nie można więc rozwiązać prostego zagadnienia typu XOR, a więc prawie żadnego zagadnienia w wysokowymiarowych przypadkach. (c) Tralvex Yeap. All Rights Reserved
4
XOR – rozwiązanie najprostsze.
Najprostsze rozwiązanie, ale jak to uczyć? Co można zrobić? Najpierw utworzyć jakąś reprezentację wewnętrzną za pomocą perceptronów, ale jaką? 1 +1 0.5 -2 Założyć reprezentację wewnętrzną a priori - zgadywaną dla każdego problemu niezależnie. Zastosować konkurencyjne uczenie się bez nadzoru; użyteczne elementy same się uaktywnią, chociaż nie ma na to gwarancji. Uczyć odpowiedniej reprezentacji wewnętrznej dla danej klasy problemów – trzeba znaleźć efektywny algorytm uczenia. (c) Tralvex Yeap. All Rights Reserved
5
XOR z warstwą ukrytą rozwiązuje XOR
(c) Tralvex Yeap. All Rights Reserved
6
Warstwa ukryta i granice decyzji
(c) Tralvex Yeap. All Rights Reserved
7
Sieć MLP (c) Tralvex Yeap. All Rights Reserved
8
MLP = Multilayer Perceptron.
Perceptron 3-warstwowy z warstwą wejściową, ukrytą i wyjściową - oznaczenia. (c) Tralvex Yeap. All Rights Reserved
9
MLP - oznaczenia Liczba warstw M=3 Xi(l) - całkowity sygnał dochodzący do elementu i należącego do warstwy l oi(l) - sygnał wychodzący z elementu i należącego do warstwy l Wij(l) - wagi łączące element i należący do warstwy l-1 oraz element j z warstwy l Xj(l) = Si Wij(l)oi(l-1) aktywacja neuronu j w warstwie l. oj(l) = s(Xj(l)) sygnał wysyłany z tego neuronu Fi (X;W) = oi(M) funkcja realizowana przez MLP (c) Tralvex Yeap. All Rights Reserved
10
BP-1 Algorytm wstecznej propagacji błędów (1974, 1986)
Miara błędu dla wzorca p i No wyjść Gradientowa reguła minimalizacji błędu równoważna jest regule delta. Obliczenia gradientu dla warstwy zewnętrznej: (c) Tralvex Yeap. All Rights Reserved
11
Funkcja błędu w 2D Problem 1D bez warstwy ukrytej.
(c) Tralvex Yeap. All Rights Reserved
12
BP-2 Błąd „lokalny” dla warstwy M Zmiana wag w warstwie wyjściowej:
Wagi łączące neuron j i neuron k w warstwie M-1: Gradient: (c) Tralvex Yeap. All Rights Reserved
13
BP-3 Ponieważ to gradient: a zmiana wag:
Struktura wzoru dla kolejnych warstw jest taka sama. (c) Tralvex Yeap. All Rights Reserved
14
BP- podsumowanie Funkcja realizowana przez sieć:
Inicjalizacja: przypadkowe małe wartości wag. Propagacja sygnałów od wejścia do wyjścia. Propagacja korekcji błędów wstecz: rekursywne obliczanie DWij. (c) Tralvex Yeap. All Rights Reserved
15
Sigmoidy Logistyczna funkcja aktywacji: Próg q, nachylenie T
Pochodna ma max dla o=0.5: Błąd wyjściowego elementu: (c) Tralvex Yeap. All Rights Reserved
16
XOR – dynamika uczenia (c) Tralvex Yeap. All Rights Reserved
17
Funkcja błędu w 2D z PCA Patrząc w kierunku największej wariancji wag możemy zrobić projekcję funkcji błędu – dla XOR jest ona dość skomplikowana. Przeskalowanie kierunku c2 pokazuje więcej szczegółów. (c) Tralvex Yeap. All Rights Reserved
18
Własności MLP MLP jest uniwersalnym aproksymatorem:
1 warstwa – f. ciągłe 2 warstwy – f. nieciągłe (dowód via tw. Stone’a- Weierstrassa) Szybkość zbieżności z sigmoidami: O(1/n); z wielomianami O(1/n1/d) W niektórych problemach inne funkcje dają szybsza zbieżność. Parametry sieci: architektura, liczba warstw, liczba neuronów. Końcowa warstwa: perceptron. Neurony ukryte: transformacja nieliniowa do przestrzeni odwzorowań, tworząca nowe cechy za pomocą nieliniowych kombinacji. (c) Tralvex Yeap. All Rights Reserved
19
Przykłady zbieżności dla XOR
Architektura 2-2-2, rozmyte klastry XOR. W p-ni wyjściowej w warstwie ukrytej (c) Tralvex Yeap. All Rights Reserved
20
Uczenie MLP Parametry uczenia: szybkość uczenia bezwładność
Pozwala usunąć szybkie oscylacje, zmienia efektywną stałą uczenia: dla małych zmian wag. sposób prezentacji danych Losowa prezentacja – element stochastyczny, uczenie on-line. Ustalona kolejność. Poprawki po całej epoce – po kilku prezentacjach też warto. (c) Tralvex Yeap. All Rights Reserved
21
Problemy i ulepszenia. Niewłaściwie dobrana architektura sieci.
Minima lokalne i plateau, wąskie „rynny”. Wpływ nowych wzorców na już nauczone – zapominanie. Szybkość uczenia – zagadnienie jest NP-trudne. Schematy adaptacji dla stałej uczenia: zwiększać h o a=const dla malejącego błędu, zmniejszać o -hb dla rosnącego błędu. Duże kroki na powierzchni gładkiej, drobne kroki na skomplikowanej. Lokalne stałe uczenia się, różne dla różnych węzłów - kosztowne. (c) Tralvex Yeap. All Rights Reserved
22
Ulepszenia MLP Szybsze procedury minimalizacji błędu.
Modyfikacje schematu wstecznej propagacji. Unikanie minimów lokalnych – różne możliwości. Funkcje kosztu, niekoniecznie MSE. Inicjalizacja parametrów, lepszy start. Regularyzacja i zwiększenie zdolność do generalizacji sieci - wybór modelu o odpowiedniej złożoności. Sieci konstruktywistyczne/ontogeniczne, dostosowujące złożonośc do danych. Funkcje transferu, nie tylko sigmoidy. (c) Tralvex Yeap. All Rights Reserved
23
Co dalej? Perceptrony wielowarstwowe: ulepszenia, algorytmy konstruktywistyczne. Sieci Hopfielda Sieci Hebbowskie i modele mózgu Samoorganizacja Perceptrony wielowarstwowe (c) Tralvex Yeap. All Rights Reserved
24
Koniec wykładu 10 Dobranoc …
(c) Tralvex Yeap. All Rights Reserved
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.