Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

EE141 1 Uniwersalne Modele Uczenia Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie Inteligentne Systemy Autonomiczne W oparciu o.

Podobne prezentacje


Prezentacja na temat: "EE141 1 Uniwersalne Modele Uczenia Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie Inteligentne Systemy Autonomiczne W oparciu o."— Zapis prezentacji:

1 EE141 1 Uniwersalne Modele Uczenia Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie Inteligentne Systemy Autonomiczne W oparciu o wykład Prof. Randall O'ReillyRandall O'Reilly University of Colorado oraz Prof. Włodzisława Ducha Uniwersytet Mikołaja Kopernika

2 EE141 2 Uczenie zadań Chcemy połączyć uczenie Hebbowskie i uczenie wykorzystujące korekcję błędów, jednostki ukryte i biologicznie uzasadnione modele. Hebbowskie sieci modelują stany świata ale nie percepcje-działanie. Korekcja błędu może się nauczyć mapowania. Niestety reguła delta dobra jest tylko dla jednostki wyjściowej, a nie ukrytej, bo trzeba jej podać cel. Metoda wstecznej propagacji błędu potrafi uczyć jednostki ukryte. Ale nie ma dla niej dobrego uzasadnienia biologicznego... Idea wstecznej propagacji jest prosta ale jej dokładniejsze rozpisanie wymaga sporo obliczeń. Główna idea: szukamy minimum funkcji błędu, mierzącej różnice między pożądanym zachowaniem i tym realizowanym przez sieć.

3 EE141 3 Funkcja błędu E(w) – f. błędu, zależna od wszystkich parametrów sieci w, jest to suma błędów E(X;w) dla wszystkich wzorców X. o k (X;w) – wartości osiągane na wyjściu nr. k sieci dla wzorca X. t k (X;w) – wartości pożądane na wyjściu nr. k sieci dla wzorca X. Jeden wzorzec X, jeden parametr w to: Wartość f. błędu =0 nie zawsze jest osiągalna, sieć może nie mieć wystarczająco dużo parametrów by się nauczyć pożądanego zachowania, można jedynie dążyć do najmniejszego błędu. W minimum błąd E(X;w) jest dla parametru w dla pochodnej dE(X;w)/dw = 0. Dla wielu parametrów mamy pochodne po wszystkich, dE/dw i, czyli gradient.

4 EE141 4 Propagacja błędu Reguła delta minimalizuje błąd dla jednego neuronu, np. wyjściowego, do którego docierają sygnały s i w ik = ||t k – o k || s i Jakie sygnały należy brać dla neuronów ukrytych? Najpierw przepuszczamy sygnały przez sieć obliczając aktywacje, wyjściowe sygnały z neuronów h, przez wszystkie warstwy, aż do wyjść o k (forward step). Obliczamy błędy k = (t k -o k ), i poprawki dla neuronów wyjściowych w ik = k h i. Błąd dla ukrytych neuronów: j = k w jk k h j (1-h j ), (backward step) (backpropagation of error). Korekcja najsilniejsza dla niezdecydowanych wag – bliskich 0.5

5 EE141 5 GeneRec Chociaż większość modeli używanych w psychologii uczy struktury wielowarstwowych perceptronów za pomocą odmian wstecznej propagacji (można się w ten sposób nauczyć dowolnej funkcji) idea przekazu informacji o błędach nie ma biologicznego uzasadnienia. GeneRec (General Recirculation, OReilly 1996), Propagacja sygnału w obie strony, niesymetryczne wagi w kl w jk. Najpierw faza –, opowiedź sieci na aktywację x – daje wyjście y –, potem obserwacja pożądanego wyniku y + i propagacja do wejścia x +. Zmiana wagi wymaga informacji o sygnałach z obu faz.

6 EE141 6 GeneRec - uczenie Reguła uczenia jest zgodna z regułą delta: W porównaniu z wsteczną propagacją różnica sygnałów [y + -y - ] zastępuje sumaryczny błąd, różnica sygnałów ~ różnic aktywności * pochodna funkcji aktywacji, stąd jest to reguła gradientowa. Dla nastawień jest x i =1, więc: Dwukierunkowe przesyłanie informacji jest niemal równoczesne odpowiada za powstawanie stanów atraktorowych, spełnianie ograniczeń, dopełnianie wzorców. fala P300 która pojawia sie 300 msek po pobudzeniu pokazuje oczekiwania wynikające z pobudzenia zewnętrznego Błędy są wynikiem aktywności w całej sieci, nieco lepsze wyniki dostaniemy biorąc średnią [x + +x - ]/2 i zachowując symetrię wag: Reguła CHL (Contrastive Hebbian Rule)

7 EE141 7 Dwie fazy Skąd bierze się błąd do korygowania połączeń synaptycznych? Warstwa po prawej stronie = środkowa po czasie t+1; np. a) wymowa słów: korekta zewnętrzna działania; b) oczekiwania wewnętrzne i czyjaś wymowa; c) oczekiwanie wynikow działania i ich obserwacja; d) rekonstrukcja (oczekiwanie wejścia).

8 EE141 8 Własności GeneRec Uczenie Hebbowskie tworzy model świata, zapamiętując korelacje, ale nie potrafi się nauczyć wykonywania zadań. Ukryte warstwy pozwalają na transformację problemu a korekcja błędu pozwala uczyć się wykonywania trudnych zadań, relacji wejść i wyjść. Kombinacja uczenia Hebbowskiego – korelacje (x y) – i opartego na błędach może się nauczyć wszystkiego w poprawny biologicznie sposób: CHL prowadzi do symetrii, wystarczy przybliżona symetria, połączenia są zwykle dwukierunkowe. Err = CHL w tabelce. Brak Ca 2+ = nie ma uczenia; mało Ca 2+ = LTD, dużo Ca 2+ = LTP LTD – niespełnione oczekiwania, tylko faza -, brak wzmocnienia z +. * * * *

9 EE141 9 Kombinacja Hebb + błędy Zalety Wady Hebb (Lokalny) Autonomiczny zawężony Niezawodny zachłanny Error (Odległy) Celowy współzależny Współpracujący leniwy Dobrze jest połączyć uczenie Hebbowskie i korekcję błędów CHL CHL jak socjalizm próbuje poprawić błędy całości, ogranicza motywacje jednostek, wspólna odpowiedzialność mała efektywność działalność planowa Hebbowskie uczenie jak kapitalizm oparty na zachłanności lokalne interesy indywidualizm skuteczność działań brak nadzoru nad całością

10 EE Kombinacja Hebb + błędy Widać, że dobrze połączyć uczenie Hebbowskie i korekcję błędów CHL Korelacje i błędy: Kombinacja Dodatkowo potrzebne jest hamowanie wewnątrz warstw: tworzy oszczędne reprezentacje wewnętrzne, jednostki konkurują ze sobą, zostają tylko najlepsze, wyspecjalizowane, umożliwia samoorganizujące się uczenie.

11 EE Symulacje trudnego problemu Genrec.proj.gz, roz ukryte jednostki. Uczenie jest przerywane po 5 epokach bez błędu. Błędy w czasie uczenia wykazują znaczne fluktuacje – sieci z rekurencją są wrażliwe na małe zmiany wag, eksplorują różne rozwiązania. Porównaj z uczeniem przypadków łatwych i trudnych z samym Hebbem.

12 EE Hamująca konkurencja jako bias Hamowanie (inhibition) Prowadzi do rzadkich rozproszonych reprezentacji (wiele reprezentacji, i tylko niektóre przydają się w konkretnej sytuacji) Konkurencja i specjalizacja: przetrwanie najbardziej przystosowanych Uczenie samoorganizujące się Często ważniejsze niż Hebbowskie Hamowanie było tez użyte w mieszankach ekspertów bramki (gating units) podlegają kompetycji WTA kontrolują wyjścia ekspertów

13 EE Porównanie zmian wag w uczeniu Widok wag warstwy ukrytej w uczeniu Hebbowskim Wagi neuronów przedstawione s ą w odniesieniu do poszczególnych wejść Widok wag warstwy ukrytej przy uczeniu metoda korekcji błędu Wagi wydaja się dosyć przypadkowe w porównaniu z uczeniem Hebba

14 EE Porównanie zmian wag w uczeniu Wykresy porównujące a) błędy treningowe b) ilość cykli jako funkcje ilości epok treningowych dla trzech rożnych metod uczenia Hebbowskie (Pure Hebb) Korekcja błędów (Pure Err) Kombinacja (Hebb& Err) – która uzyskała najlepsze wyniki Epochs b)

15 EE Pełny model Leabra Hamowanie wewnątrz warstw, uczenie Hebbowskie + korekcja błędów dla wag pomiędzy warstwami. 6 zasad budowy inteligentnego systemu. 1.Biologiczny realizm 2.Rozproszone reprezentacje 3.Wzajemne hamowanie 4.Dwukierunkowa propagacja aktywności 1.Uczenie korygujące błąd 2.Uczenie Hebbowskie

16 EE Generalizacja Jak sobie radzimy z rzeczami których nigdy nie widzieliśmy za każdym razem gdy wchodzimy do klasy, każde spotkanie, każde zdanie które słyszysz, itd. Ciągle spotykamy nowe sytuacje, i rozsądnie je uogólniamy Jak to robimy? nust

17 EE Dobre reprezentacje Rozproszone reprezentacje wewnętrzne. Nowe pojęcia są kombinacją istniejących cech. Uczenie Hebbowskie + konkurencja oparta na hamowaniu ograniczają korekcję błędów tak, by utworzyć dobre reprezentacje.

18 EE Generalizacja w sieciach atraktorowych Sama reguła GeneRec nie prowadzi do dobrej generalizacji. Symulacje: model_and_task.proj. gz, rozdz. 6 Parametr hebb kontroluje ile CHL a ile Hebba. Pure_err realizuje tylko CHL, sprawdzić fazy - i + Porównać rep. wewnętrzne dla różnych rodzajów uczenia.

19 EE Głębokie sieci (deep networks) Do nauczenia się trudnych zagadnień potrzebnych jest wiele transformacji, mocno zmieniających reprezentację problemu. Sygnały błędu stają się słabe i uczenie jest trudne. Trzeba dodać ograniczenia i samoorganizujące się uczenie. Analogia: Balansowanie kilkoma połączonym kijkami jest trudne, ale dodanie samoorganizującego się uczenia pomiędzy fragmentami znacznie to uprości – jak dodanie żyroskopu do każdego elementu.

20 EE Uczenie sekwencyjne Oprócz rozpoznawania obiektów i relacji oraz wykonywania zadań istotne jest uczenie się sekwencyjne, np. sekwencji słów w zdaniach: Ten kraj znasz dobrze. Znasz dobrze ten kraj? Dziecko podniosło zabawkę do góry. Przejechałem skrzyżowanie bo samochód z prawej strony dopiero się zbliżał. Znaczenie słów, gestów, zachowania, zależy od sekwencji, kontekstu. Czas pełni istotną rolę: konsekwencje pojawienia się obrazu X mogą być widoczne dopiero z opóźnieniem, np. konsekwencje pozycji figur w czasie gry są widoczne dopiero po kilku krokach. Modele sieci reagują od razu – jak robią to mózgi?

21 EE Drzewo rodzinne Przykład symulacji: family_trees.proj.gz, rozdz Czego jeszcze brakuje? Zależności czasowych i sekwencji !

22 EE Uczenie sekwencyjne Cluster plot pokazujący reprezentacje neuronow warstwy ukrytej a) przed uczeniem b) po uczeniu metoda kombinacji Hebba i korekcji błędów Wytrenowana siec ma dwie gałęzie odpowiadające dwom rodzinom

23 EE Uczenie sekwencyjne Kategorie zależności czasowych: Sekwencje o określonej strukturze Opóźnione w czasie Ciągłe trajektorie Kontekst reprezentowany jest w płatach czołowych kory powinien wpływać na warstwę ukryta. Potrzebne są sieci z rekurencją, które potrafią utrzymać przez pewien czas informacje o kontekście. Prosta Sieć Rekurencyjna (Simple Recurrent Network, SRN), Warstwa kontekstu jest kopia warstwy ukrytej Sieć Elmana.

24 EE Uczenie sekwencyjne Biologiczne uzasadnienie reprezentacji kontekstu Płaty czołowe kory Odpowiadają za planowanie i wykonanie czynności w czasie. Ludzie z uszkodzeniami płata czołowego maja trudności w wykonaniu sekwencji czynności mimo ze nie maja problemu z poszczególnymi krokami czynności Platy czołowe odpowiedzialne są za reprezentacje w czasie Na przykład takie wyrazy jak pokój czy pole nabierają znaczenia w zależności od kontekstu Kontekst jest funkcja poprzednio uzyskanej informacji Ludzie ze schizofrenia mogą używać kontekstu bezpośrednio przed wieloznacznym wyrazem ale nie w oparciu o poprzednie zdanie. Reprezentacje kontekstu nie tylko prowadza do sekwencyjnego zachowania ale tez są wymagane do zrozumienia sekwencyjnie prezentowanej informacji takiej jak mowa.

25 EE Przykłady uczenia sekwencji Czy można odkryć reguły tworzenia się sekwencji? Przykłady: BTXSE BPVPSE BTSXXTVVE BPTVPSE Automat o następujących przejściach produkuje takie zachowania: Czy te sekwencje są do akceptacji? BTXXTTVVE TSXSE VVSXE BSSXSE Jak pokazały testy ludzie są w stanie nauczyć się szybciej rozpoznawać litery wyprodukowane według określonego schematu, mimo ze nie znają użytych reguł

26 EE Realizacja sieciowa Sieć wybiera przypadkowo jeden z dwóch możliwych stanów. Ukryte/kontekstowe neurony uczą się rozpoznawać stany automatu, a nie tylko etykiety. Modelowanie zachowania: te same obserwacje ale różne stany wewnętrzne => różne decyzje i następne stany. Projekt fsa.proj.gz, rozdz

27 EE Opóźnienie czasowe i wzmocnienie Nagroda (wzmocnienie, reinforcement) często następuje z opóźnieniem np. w uczeniu się gier, strategii zachowań. Idea: trzeba przewidywać dostatecznie wcześnie jakie zdarzenia prowadzą do nagrody. Robi to algorytm różnic czasowych (Temporal Differences TD - Sutton). Skąd w mózgu nagroda? Dopaminergiczny system śródmózgowia moduluje działanie jąder podstawnych (BG) przez substancję czarną (SN), oraz kory czołowej przez brzuszną część nakrywki śródmózgowia (VTA). Dość skomplikowany system, którego działania związane są z oceną bodźców/działań z punktu widzenia wartości i nagrody.

28 EE Opóźnienie czasowe i wzmocnienie Nakrywka śródmózgowia (VTA) jest częścią systemu nagradzającego. Neurony nakrywki śródmózgowia dostarczaja neurotransmiter dopamine (DA) do płatów czołowych i jąder podstawnych modulując uczenie w tym obszarze odpowiedzialnym za planowanie i akcje. Bardziej zaawansowane rejony mózgu odpowiedzialne są za wyprodukowanie tego globalnego sygnału uczenia Badania pacjentów z uszkodzeniami obszaru VTA wskazują na jego role w przewidywaniu nagrody i kary. Uczenie szympansow – liczenie 1-minliczenie

29 EE Mechanizmy nagrody Skomplikowany mechanizm, pętle pobudzeń między wzg ó rzem, jądrami podstawnymi, prążkowiem i korą czołową. Kora przedczołowa (PFC) Brzuszne Prążkowie Jądro półleżące WZGÓRZE SNpc VTA Kora okołoczołodołowa Jądra SNpc i VTA wykorzystują dopaminę by przewidywać zda- rzenia niespodziewane.

30 EE Antycypacja nagrody i wynik Antycypacja nagrody i reakcja na wynik decyzji (Knutson et al, 2001)

31 EE THALAMUS CIAŁO MIGDAŁOWATE HIPOKAMP KORA PRZEDCZOŁOWA (PfC) Brzuszna Część Na- krywki (VTA) ISTOTA CZARNA J. SZWU PRĄŻKOWIE JĄDRO PÓŁLEŻĄCE J.OGONIASTE -SKORUPA PODWZGÓRZE- PRZEGRODA Zmysłowo- ruchowa kora skojarzeniowa GŁÓWNY UKŁAD MOTYWACJI DODATKOWY UKŁAD MOTYWACJI Glutamininan GABA Dopamina Serotonina Neuroprzekaźniki Pętla kora-prążkowie-wzgórze-kora

32 EE Jądra podstawne BG Neurony VTA uczą się najpierw reagować na nagrodę a następnie przewidywać wcześniej pojawienie się nagrody.

33 EE Szkic sformułowania – algorytm TD Należy określić funkcję wartości, suma po wszystkich przyszłych nagrodach, im dalsze w czasie tym mniej ważne: Adaptacyjny krytyk AC uczy się przybliżać funkcje wartości V(t) AC w każdej chwili czasowej stara się przewidzieć wartość nagrody Można to zrobić rekursywnie: Błąd przewidywanej nagrody: Sieć próbuje zredukować ten błąd. Nazwa algorytmu – TD (temporal difference) reprezentuje błąd oceny funkcji wartości otrzymany w przedziale czasowym

34 EE Implementacja sieciowa Przewidywania aktywności i błędu. Warunkowe pobudzenie CS dla t=2 Bezwarunkowe pobudzenie (nagroda) US dla t=16 rl_cond.proj.gz Początkowo duży błąd dla Time=16 bo nagroda r(16) jest niespodziewana Adaptacyjny krytyk AC

35 EE Dwufazowa implementacja (Faza +) ocenia spodziewaną wielkość nagrody w czasie t+1 (wartość r). (Faza –) w kroku t-k przewiduje t-k+1, w końcowym r(t k ). Wartość funkcji V(t+1) w fazie + jest przeniesiona na wartość V(t) w fazie - Uczenie postępuje wstecz w czasie wpływając na ocenę poprzedniego kroku Uczenie szympansów – kolejność cyfr 1 minkolejność cyfr CS dla t=2 US dla t=16

36 EE Dwufazowa implementacja System uczy sie rozpoznawać ze stymulant (tone) przewiduje nagrodę Wejście CSC – Complete Serial Compound, zastosowano unikalne elementy do bodźców w kolejnych momentach czasu. Nie jest to zbyt realistyczny model warunkowania klasycznego. Rozdz , proj. rl_cond.proj.gz


Pobierz ppt "EE141 1 Uniwersalne Modele Uczenia Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie Inteligentne Systemy Autonomiczne W oparciu o."

Podobne prezentacje


Reklamy Google