Uniwersalne Modele Uczenia

Uniwersalne Modele Uczenia
EE141 Inteligentne Systemy Autonomiczne Uniwersalne Modele Uczenia W oparciu o wykład Prof. Randall O'Reilly University of Colorado oraz Prof. Włodzisława Ducha Uniwersytet Mikołaja Kopernika Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie

EE141 Uczenie zadań Chcemy połączyć uczenie Hebbowskie i uczenie wykorzystujące korekcję błędów, jednostki ukryte i biologicznie uzasadnione modele. Hebbowskie sieci modelują stany świata ale nie percepcje-działanie. Korekcja błędu może się nauczyć mapowania. Niestety reguła delta dobra jest tylko dla jednostki wyjściowej, a nie ukrytej, bo trzeba jej podać cel. Metoda wstecznej propagacji błędu potrafi uczyć jednostki ukryte. Ale nie ma dla niej dobrego uzasadnienia biologicznego ... Idea wstecznej propagacji jest prosta ale jej dokładniejsze rozpisanie wymaga sporo obliczeń. Główna idea: szukamy minimum funkcji błędu, mierzącej różnice między pożądanym zachowaniem i tym realizowanym przez sieć.

EE141 Funkcja błędu E(w) – f. błędu, zależna od wszystkich parametrów sieci w, jest to suma błędów E(X;w) dla wszystkich wzorców X. ok(X;w) – wartości osiągane na wyjściu nr. k sieci dla wzorca X. tk(X;w) – wartości pożądane na wyjściu nr. k sieci dla wzorca X. Jeden wzorzec X, jeden parametr w to: Wartość f. błędu =0 nie zawsze jest osiągalna, sieć może nie mieć wystarczająco dużo parametrów by się nauczyć pożądanego zachowania, można jedynie dążyć do najmniejszego błędu. W minimum błąd E(X;w) jest dla parametru w dla pochodnej dE(X;w)/dw = 0. Dla wielu parametrów mamy pochodne po wszystkich, dE/dwi, czyli gradient.

Propagacja błędu (backpropagation of error).
EE141 Propagacja błędu Reguła delta minimalizuje błąd dla jednego neuronu, np. wyjściowego, do którego docierają sygnały si Dwik =e ||tk – ok|| si Jakie sygnały należy brać dla neuronów ukrytych? Najpierw przepuszczamy sygnały przez sieć obliczając aktywacje h, wyjściowe sygnały z neuronów h, przez wszystkie warstwy, aż do wyjść ok (forward step). Obliczamy błędy dk = (tk-ok), i poprawki dla neuronów wyjściowych Dwik = e dk hi. Błąd dla ukrytych neuronów: dj = e Sk wjk dk hj(1-hj), (backward step) (backpropagation of error). Korekcja najsilniejsza dla niezdecydowanych wag – bliskich 0.5

EE141 GeneRec Chociaż większość modeli używanych w psychologii uczy struktury wielowarstwowych perceptronów za pomocą odmian wstecznej propagacji (można się w ten sposób nauczyć dowolnej funkcji) idea przekazu informacji o błędach nie ma biologicznego uzasadnienia. GeneRec (General Recirculation, O’Reilly 1996), Propagacja sygnału w obie strony, niesymetryczne wagi wkl  wjk. Najpierw faza –, opowiedź sieci na aktywację x– daje wyjście y–, potem obserwacja pożądanego wyniku y+ i propagacja do wejścia x+. Zmiana wagi wymaga informacji o sygnałach z obu faz.

GeneRec - uczenie Reguła uczenia jest zgodna z regułą delta:
EE141 GeneRec - uczenie Reguła uczenia jest zgodna z regułą delta: W porównaniu z wsteczną propagacją różnica sygnałów [y+-y-] zastępuje sumaryczny błąd, różnica sygnałów ~ różnic aktywności * pochodna funkcji aktywacji, stąd jest to reguła gradientowa. Dla nastawień b jest xi=1, więc: Dwukierunkowe przesyłanie informacji jest niemal równoczesne odpowiada za powstawanie stanów atraktorowych, spełnianie ograniczeń, dopełnianie wzorców. fala P300 która pojawia sie 300 msek po pobudzeniu pokazuje oczekiwania wynikające z pobudzenia zewnętrznego Błędy są wynikiem aktywności w całej sieci, nieco lepsze wyniki dostaniemy biorąc średnią [x++x-]/2 i zachowując symetrię wag: Reguła CHL (Contrastive Hebbian Rule)

Dwie fazy Skąd bierze się błąd do korygowania połączeń synaptycznych?
EE141 Dwie fazy Skąd bierze się błąd do korygowania połączeń synaptycznych? Warstwa po prawej stronie = środkowa po czasie t+1; np a) wymowa słów: korekta zewnętrzna działania; b) oczekiwania wewnętrzne i czyjaś wymowa; c) oczekiwanie wynikow działania i ich obserwacja; d) rekonstrukcja (oczekiwanie wejścia).

EE141 Własności GeneRec Uczenie Hebbowskie tworzy model świata, zapamiętując korelacje, ale nie potrafi się nauczyć wykonywania zadań. Ukryte warstwy pozwalają na transformację problemu a korekcja błędu pozwala uczyć się wykonywania trudnych zadań, relacji wejść i wyjść. Kombinacja uczenia Hebbowskiego – korelacje (x y) – i opartego na błędach może się nauczyć wszystkiego w poprawny biologicznie sposób: CHL prowadzi do symetrii, wystarczy przybliżona symetria, połączenia są zwykle dwukierunkowe. Err = CHL w tabelce. * Brak Ca2+ = nie ma uczenia; mało Ca2+ = LTD, dużo Ca2+ = LTP LTD – niespełnione oczekiwania, tylko faza -, brak wzmocnienia z +.

Kombinacja Hebb + błędy
EE141 Kombinacja Hebb + błędy Dobrze jest połączyć uczenie Hebbowskie i korekcję błędów CHL CHL jak socjalizm próbuje poprawić błędy całości, ogranicza motywacje jednostek, wspólna odpowiedzialność mała efektywność działalność planowa Hebbowskie uczenie jak kapitalizm oparty na zachłanności lokalne interesy indywidualizm skuteczność działań brak nadzoru nad całością Zalety Wady Hebb (Lokalny) Autonomiczny zawężony Niezawodny zachłanny Error (Odległy) Celowy współzależny Współpracujący leniwy

Kombinacja Hebb + błędy
EE141 Kombinacja Hebb + błędy Widać, że dobrze połączyć uczenie Hebbowskie i korekcję błędów CHL Korelacje i błędy: Kombinacja Dodatkowo potrzebne jest hamowanie wewnątrz warstw: tworzy oszczędne reprezentacje wewnętrzne, jednostki konkurują ze sobą, zostają tylko najlepsze, wyspecjalizowane, umożliwia samoorganizujące się uczenie.

Symulacje trudnego problemu
EE141 Symulacje trudnego problemu Genrec.proj.gz, roz. 5.9 3 ukryte jednostki. Uczenie jest przerywane po 5 epokach bez błędu. Błędy w czasie uczenia wykazują znaczne fluktuacje – sieci z rekurencją są wrażliwe na małe zmiany wag, eksplorują różne rozwiązania. Porównaj z uczeniem przypadków łatwych i trudnych z samym Hebbem.

Hamująca konkurencja jako bias
EE141 Hamująca konkurencja jako bias Hamowanie (inhibition) Prowadzi do rzadkich rozproszonych reprezentacji (wiele reprezentacji, i tylko niektóre przydają się w konkretnej sytuacji) Konkurencja i specjalizacja: przetrwanie najbardziej przystosowanych Uczenie samoorganizujące się Często ważniejsze niż Hebbowskie Hamowanie było tez użyte w mieszankach ekspertów bramki (gating units) podlegają kompetycji WTA kontrolują wyjścia ekspertów

Porównanie zmian wag w uczeniu
EE141 Porównanie zmian wag w uczeniu Widok wag warstwy ukrytej w uczeniu Hebbowskim Wagi neuronów przedstawione są w odniesieniu do poszczególnych wejść Widok wag warstwy ukrytej przy uczeniu metoda korekcji błędu Wagi wydaja się dosyć przypadkowe w porównaniu z uczeniem Hebba

Porównanie zmian wag w uczeniu
EE141 Porównanie zmian wag w uczeniu Epochs b) Wykresy porównujące a) błędy treningowe b) ilość cykli jako funkcje ilości epok treningowych dla trzech rożnych metod uczenia Hebbowskie (Pure Hebb) Korekcja błędów (Pure Err) Kombinacja (Hebb& Err) – która uzyskała najlepsze wyniki

Pełny model Leabra 6 zasad budowy inteligentnego systemu.
EE141 Pełny model Leabra 6 zasad budowy inteligentnego systemu. Biologiczny realizm Rozproszone reprezentacje Wzajemne hamowanie Dwukierunkowa propagacja aktywności Uczenie korygujące błąd Uczenie Hebbowskie Hamowanie wewnątrz warstw, uczenie Hebbowskie + korekcja błędów dla wag pomiędzy warstwami.

EE141 Generalizacja Jak sobie radzimy z rzeczami których nigdy nie widzieliśmy nust za każdym razem gdy wchodzimy do klasy, każde spotkanie, każde zdanie które słyszysz, itd. Ciągle spotykamy nowe sytuacje, i rozsądnie je uogólniamy Jak to robimy?

Dobre reprezentacje Rozproszone reprezentacje wewnętrzne.
EE141 Dobre reprezentacje Rozproszone reprezentacje wewnętrzne. Nowe pojęcia są kombinacją istniejących cech. Uczenie Hebbowskie + konkurencja oparta na hamowaniu ograniczają korekcję błędów tak, by utworzyć dobre reprezentacje.

Generalizacja w sieciach atraktorowych
EE141 Generalizacja w sieciach atraktorowych Sama reguła GeneRec nie prowadzi do dobrej generalizacji. Symulacje: model_and_task.proj. gz, rozdz. 6 Parametr hebb kontroluje ile CHL a ile Hebba. Pure_err realizuje tylko CHL, sprawdzić fazy - i + Porównać rep. wewnętrzne dla różnych rodzajów uczenia.

Głębokie sieci (deep networks)
Do nauczenia się trudnych zagadnień potrzebnych jest wiele transformacji, mocno zmieniających reprezentację problemu. Sygnały błędu stają się słabe i uczenie jest trudne. Trzeba dodać ograniczenia i samoorganizujące się uczenie. Analogia: Balansowanie kilkoma połączonym kijkami jest trudne, ale dodanie samoorganizującego się uczenia pomiędzy fragmentami znacznie to uprości – jak dodanie żyroskopu do każdego elementu.

EE141 Uczenie sekwencyjne Oprócz rozpoznawania obiektów i relacji oraz wykonywania zadań istotne jest uczenie się sekwencyjne, np. sekwencji słów w zdaniach: Ten kraj znasz dobrze. Znasz dobrze ten kraj? Dziecko podniosło zabawkę do góry. Przejechałem skrzyżowanie bo samochód z prawej strony dopiero się zbliżał. Znaczenie słów, gestów, zachowania, zależy od sekwencji, kontekstu. Czas pełni istotną rolę: konsekwencje pojawienia się obrazu X mogą być widoczne dopiero z opóźnieniem, np. konsekwencje pozycji figur w czasie gry są widoczne dopiero po kilku krokach. Modele sieci reagują od razu – jak robią to mózgi?

Drzewo rodzinne Przykład symulacji: family_trees.proj.gz, rozdz. 6.4.1
Czego jeszcze brakuje? Zależności czasowych i sekwencji !

EE141 Uczenie sekwencyjne Cluster plot pokazujący reprezentacje neuronow warstwy ukrytej a) przed uczeniem b) po uczeniu metoda kombinacji Hebba i korekcji błędów Wytrenowana siec ma dwie gałęzie odpowiadające dwom rodzinom

Uczenie sekwencyjne Kategorie zależności czasowych:
EE141 Uczenie sekwencyjne Kategorie zależności czasowych: Sekwencje o określonej strukturze Opóźnione w czasie Ciągłe trajektorie Kontekst reprezentowany jest w płatach czołowych kory powinien wpływać na warstwę ukryta. Potrzebne są sieci z rekurencją, które potrafią utrzymać przez pewien czas informacje o kontekście. Prosta Sieć Rekurencyjna (Simple Recurrent Network, SRN), Warstwa kontekstu jest kopia warstwy ukrytej Sieć Elmana.

Uczenie sekwencyjne Biologiczne uzasadnienie reprezentacji kontekstu
EE141 Uczenie sekwencyjne Biologiczne uzasadnienie reprezentacji kontekstu Płaty czołowe kory Odpowiadają za planowanie i wykonanie czynności w czasie. Ludzie z uszkodzeniami płata czołowego maja trudności w wykonaniu sekwencji czynności mimo ze nie maja problemu z poszczególnymi krokami czynności Platy czołowe odpowiedzialne są za reprezentacje w czasie Na przykład takie wyrazy jak “pokój” czy “pole” nabierają znaczenia w zależności od kontekstu Kontekst jest funkcja poprzednio uzyskanej informacji Ludzie ze schizofrenia mogą używać kontekstu bezpośrednio przed wieloznacznym wyrazem ale nie w oparciu o poprzednie zdanie. Reprezentacje kontekstu nie tylko prowadza do sekwencyjnego zachowania ale tez są wymagane do zrozumienia sekwencyjnie prezentowanej informacji takiej jak mowa.

Przykłady uczenia sekwencji
EE141 Przykłady uczenia sekwencji Czy można odkryć reguły tworzenia się sekwencji? Przykłady: BTXSE BPVPSE BTSXXTVVE BPTVPSE Czy te sekwencje są do akceptacji? BTXXTTVVE TSXSE VVSXE BSSXSE Automat o następujących przejściach produkuje takie zachowania: Jak pokazały testy ludzie są w stanie nauczyć się szybciej rozpoznawać litery wyprodukowane według określonego schematu, mimo ze nie znają użytych reguł

EE141 Realizacja sieciowa Sieć wybiera przypadkowo jeden z dwóch możliwych stanów. Ukryte/kontekstowe neurony uczą się rozpoznawać stany automatu, a nie tylko etykiety. Modelowanie zachowania: te same obserwacje ale różne stany wewnętrzne => różne decyzje i następne stany. Projekt fsa.proj.gz, rozdz

Opóźnienie czasowe i wzmocnienie
EE141 Opóźnienie czasowe i wzmocnienie Nagroda (wzmocnienie, reinforcement) często następuje z opóźnieniem np. w uczeniu się gier, strategii zachowań. Idea: trzeba przewidywać dostatecznie wcześnie jakie zdarzenia prowadzą do nagrody. Robi to algorytm różnic czasowych (Temporal Differences TD - Sutton). Skąd w mózgu nagroda? Dopaminergiczny system śródmózgowia moduluje działanie jąder podstawnych (BG) przez substancję czarną (SN), oraz kory czołowej przez brzuszną część nakrywki śródmózgowia (VTA). Dość skomplikowany system, którego działania związane są z oceną bodźców/działań z punktu widzenia wartości i nagrody.

Opóźnienie czasowe i wzmocnienie
EE141 Opóźnienie czasowe i wzmocnienie Nakrywka śródmózgowia (VTA) jest częścią systemu nagradzającego. Neurony nakrywki śródmózgowia dostarczaja neurotransmiter dopamine (DA) do płatów czołowych i jąder podstawnych modulując uczenie w tym obszarze odpowiedzialnym za planowanie i akcje. Bardziej zaawansowane rejony mózgu odpowiedzialne są za wyprodukowanie tego globalnego sygnału uczenia Badania pacjentów z uszkodzeniami obszaru VTA wskazują na jego role w przewidywaniu nagrody i kary. Uczenie szympansow – liczenie 1-min

EE141 Mechanizmy nagrody Skomplikowany mechanizm, pętle pobudzeń między wzgórzem, jądrami podstawnymi, prążkowiem i korą czołową. Jądra SNpc i VTA wykorzystują dopaminę by przewidywać zda-rzenia niespodziewane. Kora przedczołowa (PFC) Kora okołoczołodołowa WZGÓRZE Brzuszne Prążkowie Jądro półleżące SNpc VTA (c) Tralvex Yeap. All Rights Reserved 29

Antycypacja nagrody i wynik
EE141 Antycypacja nagrody i wynik Antycypacja nagrody i reakcja na wynik decyzji (Knutson et al, 2001) 30

GŁÓWNY UKŁAD MOTYWACJI
EE141 GŁÓWNY UKŁAD MOTYWACJI KORA PRZEDCZOŁOWA (PfC) Zmysłowo-ruchowa kora skojarzeniowa THALAMUS PODWZGÓRZE- PRZEGRODA J.OGONIASTE -SKORUPA PRĄŻKOWIE JĄDRO PÓŁLEŻĄCE Brzuszna Część Na-krywki (VTA) HIPOKAMP ISTOTA CZARNA CIAŁO MIGDAŁOWATE DODATKOWY UKŁAD MOTYWACJI J. SZWU Glutamininan GABA Neuroprzekaźniki Pętla kora-prążkowie-wzgórze-kora Dopamina Serotonina 31

EE141 Jądra podstawne BG Neurony VTA uczą się najpierw reagować na nagrodę a następnie przewidywać wcześniej pojawienie się nagrody.

Szkic sformułowania – algorytm TD
EE141 Szkic sformułowania – algorytm TD Należy określić funkcję wartości, suma po wszystkich przyszłych nagrodach, im dalsze w czasie tym mniej ważne: Adaptacyjny krytyk AC uczy się przybliżać funkcje wartości V(t) AC w każdej chwili czasowej stara się przewidzieć wartość nagrody Można to zrobić rekursywnie: Błąd przewidywanej nagrody: Sieć próbuje zredukować ten błąd. Nazwa algorytmu – TD (temporal difference) reprezentuje błąd oceny funkcji wartości otrzymany w przedziale czasowym

Implementacja sieciowa
EE141 Implementacja sieciowa Przewidywania aktywności i błędu. Warunkowe pobudzenie CS dla t=2 Bezwarunkowe pobudzenie (nagroda) US dla t=16 rl_cond.proj.gz Początkowo duży błąd dla Time=16 bo nagroda r(16) jest niespodziewana Adaptacyjny krytyk AC

Dwufazowa implementacja
EE141 Dwufazowa implementacja (Faza +) ocenia spodziewaną wielkość nagrody w czasie t+1 (wartość r). (Faza –) w kroku t-k przewiduje t-k+1, w końcowym r(tk). Wartość funkcji V(t+1) w fazie + jest przeniesiona na wartość V(t) w fazie - Uczenie postępuje wstecz w czasie wpływając na ocenę poprzedniego kroku Uczenie szympansów – kolejność cyfr 1 min CS dla t=2 US dla t=16

Dwufazowa implementacja
EE141 Dwufazowa implementacja System uczy sie rozpoznawać ze stymulant (tone) przewiduje nagrodę Wejście CSC – Complete Serial Compound, zastosowano unikalne elementy do bodźców w kolejnych momentach czasu. Rozdz , proj. rl_cond.proj.gz Nie jest to zbyt realistyczny model warunkowania klasycznego.

Uniwersalne Modele Uczenia

Podobne prezentacje

Prezentacja na temat: "Uniwersalne Modele Uczenia"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

Uniwersalne Modele Uczenia

Podobne prezentacje

Prezentacja na temat: "Uniwersalne Modele Uczenia"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres