Wykład 5 Neuropsychologia komputerowa

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

T47 Podstawowe człony dynamiczne i statyczne
Generatory i Przerzutniki
Analiza współzależności zjawisk
HERD BEHAVIOR AND AGGREGATE FLUCTUATIONS IN FINANCIAL MARKETS Rama Cont & Jean-Philipe Bouchaud. Macroeconomic Dynamics, 4, 2000, Cambridge University.
Sieć jednokierunkowa wielowarstwowa
Mechanizm wnioskowania rozmytego
Inteligencja Obliczeniowa Sieci dynamiczne cd.
Inteligencja Obliczeniowa Otwieranie czarnej skrzynki.
Katedra Informatyki Stosowanej UMK
Katedra Informatyki Stosowanej UMK
Uczenie konkurencyjne.
Samoorganizacja: uczenie bez nadzoru.
Inteligencja Obliczeniowa Sieci dynamiczne.
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Inteligencja Obliczeniowa Sieci o zmiennej strukturze.
Inteligencja Obliczeniowa Perceptrony
Wykład 10 Neuropsychologia komputerowa
Wskaźniki analizy technicznej
Sztuczne sieci neuronowe
Sprzężenie zwrotne Patryk Sobczyk.
Portfel wielu akcji. Model Sharpe’a
Współczynnik beta Modele jedno-, wieloczynnikowe Model jednowskaźnikowy Sharpe’a Linia papierów wartościowych.
Ulepszenia metody Eigenfaces
Wykład 3 Sparametryzowane rodziny funkcji
Jakość sieci geodezyjnych. Pomiary wykonane z największą starannością, nie dostarczają nam prawdziwej wartości mierzonej wielkości, lecz są zwykle obarczone.
Czy potrafimy obliczyć wartość wyjścia sieci znając wartości jej wejść? Tak, przy założeniu, że znamy aktualne wartości wag i progów dla poszczególnych.
Obserwowalność System ciągły System dyskretny u – wejścia y – wyjścia
Krzysztof Suchecki wybrana prezentacja z konferencji ECCS'07 w Dreźnie Interacting Random Boolean Networks.
Sieci Hopfielda.
SPRZĘŻENIE ZWROTNE.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Korelacja, autokorelacja, kowariancja, trendy
formalnie: Budowa i zasada funkcjonowania sztucznych sieci neuronowych
Systemy wspomagania decyzji
Sztuczne Sieci Neuronowe
Seminarium 2 Krzywe kalibracyjne – rodzaje, wyznaczanie, obliczanie wyników Równanie regresji liniowej Współczynnik korelacji.
KARTY KONTROLNE PRZY OCENIE LICZBOWEJ
formalnie: Uczenie nienadzorowane
Uczenie w Sieciach Rekurencyjnych
Elementy Rachunku Prawdopodobieństwa i Statystyki
Universalne Modele Uczenia - Cwiczenia
Systemy wspomagania decyzji
Sterowanie – metody alokacji biegunów
Ekonometria stosowana
Metody odszumiania sygnałów
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Metody sztucznej inteligencji – technologie rozmyte i neuronoweReguła propagacji wstecznej  Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów.
Od neuronow do populacji
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania Modelowanie i podstawy identyfikacji 2015/2016 Modele neuronowe – podstawy,
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
STATYSTYKA – kurs podstawowy wykład 11
Belief Nets Autor: inż. 2013r źródło tła:
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Systemy neuronowo – rozmyte
Teoria sterowania Wykład /2016
Kognitywne właściwości sieci neuronowych
Perceptrony o dużym marginesie błędu
Co do tej pory robiliśmy:
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Metody sztucznej inteligencji
Perceptrony o dużym marginesie błędu
Inteligencja Obliczeniowa Perceptrony
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Wykład 5 Neuropsychologia komputerowa
Perceptrony wielowarstwowe, wsteczna propagacja błędów
Zapis prezentacji:

Wykład 5 Neuropsychologia komputerowa Uczenie I: Hebbowskie modele uczenia Włodzisław Duch UMK Toruń Google: W Duch (c) 1999. Tralvex Yeap. All Rights Reserved

Na razie Elementy: neurony, jony, kanały, membrany, przewodnictwo, generacja impulsów ... Sieci neuronów: transformacja sygnałów, filtrowanie specyficznych informacji, wzmocnienie, kontrast, stabilność sieci, zwycięzca bierze większość (WTM), szum, atraktory sieci ... Wiele specyficznych mechanizmów, np. mechano-elektryczna transdukcja sygnałów zmysłowych: komórki rzęsate w uchu otwierają kanały jonowe za pomocą białek, działających jak sprężynki podczepione do kanałów jonowych, zamieniając drgania mechaniczne na impulsy elektryczne. Jak tworzą się konfiguracje sieci robiące interesujące rzeczy? Potrzebne jest uczenie! (c) 1999. Tralvex Yeap. All Rights Reserved

Uczenie: rodzaje Jak powinien wyglądać idealny system, który się uczy? Jak uczy się człowiek? Detektory (neurony) mogą zmieniać lokalne parametry ale chcemy osiągnąć zmianę działania całej sieci przetwarzającej informację. Rozważymy dwa rodzaje uczenia, wymagające innych mechanizmów: Uczenie się wewnętrznego modelu środowiska (spontaniczne). Uczenie się zadania, postawionego przed siecią (nadzorowane). Połączenie jednego i drugiego. (c) 1999. Tralvex Yeap. All Rights Reserved

Podstawy biologiczne: LTP, LTD Długotrwałe wzmocnienie synaptyczne (Long-Term Potentiation, LTP) odkryto w 1966 roku (T. Lomo, praca z 1973 r). Początkowo w hipokampie, potem w korze. Stymulacje neuronu prądem o częstości ~100Hz przez 1 sek zwiększają sprawności synaptyczne o 50-100%, efekt trwa długo. Efekt odwrotny: LTD, długotrwałe osłabienie synaptyczne. Najczęstsza forma LTP/LTD związana jest z receptorami NMDA. Aktywność kanałów NMDA wymaga aktywności presynaptycznej jak i postsynaptycznej, a więc jest zgodna z regułą wprowadzoną przez Donalda Hebba w 1949 roku, lapidarnie podsumowaną tak: Neurons that fire together wire together. Neurony wykazujące jednoczesną aktywność wzmacniają swoje więzy. (c) 1999. Tralvex Yeap. All Rights Reserved

Receptory NMDA 1. Jony Mg+ blokują kanały NMDA. Wzrost potencjału postsynaptycznego konieczny jest by je usunąć i umożliwić oddziaływanie z glutaminianem. 2. Presynaptyczna aktywność jest konieczna by uwolnić glutaminian, który otwiera kanały NMDA. 3. Jony Ca++ wpływają tym kanałem wywołując szereg reakcji chemicznych, które nie są do końca zbadane. Efekt jest nieliniowy: małe ilości Ca++ dają LTD, a duże LTP. Wiele innych procesów gra rolę w LTP. Dokładniejsze informacje o LTP/LTD. (c) 1999. Tralvex Yeap. All Rights Reserved

Korelacje Hebbowskie Szczegółowy mechanizm biologiczny LTP jest tutaj mało istotny, bo badamy tylko najprostsze wersje (dla farmakologii jest bardzo istotny). Prosta reguła Hebba: Dwij = e ai aj Zmiana wag proporcjonalna jest do aktywności pre i post-synaptycznej. Wagi wzmacniają się dla neuronów o skorelowanej aktywności, nie zmieniają się dla neuronów, których aktywność nie wykazuje korelacji. (c) 1999. Tralvex Yeap. All Rights Reserved

Hebb - normalizacja Prosta reguła Hebba: Dwij = e xi yj prowadzi do nieskończonego wzrostu wag. Można tego uniknąć na wiele sposobów; często stosowanym prostym sposobem jest normalizacja wag: Dwij = e (xi -wij) yj Ma to uzasadnienie biologiczne: kiedy x i y są duże mamy silne LTP, dużo Ca++ kiedy y jest duże ale x małe mamy LTD, trochę Ca++ kiedy y jest małe nic się nie dzieje bo jony Mg+ blokują kanały NMDA x to sygnał presynaptyczny, y postsynaptyczny. (c) 1999. Tralvex Yeap. All Rights Reserved

Uczenie modelu Wewnętrzne odwzorowanie regularności pojawiających się w dochodzących sygnałach, „środowiska” danej grupy neuronów. Wykrywanie korelacji pomiędzy sygnałami. korelacja dodatnia Elementy obrazów, ruchy, zachowania zwierząt lub emocje, skorelować można wszystko tworząc model zachowania. Istotne są tylko silne korelacje, słabych jest za dużo i mogą być przypadkowe. Przykład: Ch4, hebb_correl.proj (c) 1999. Tralvex Yeap. All Rights Reserved

Symulacja Wybieramy hebb_correl.proj Jeden neuron podłączony do 5x5, pokazujemy diagonalną linię; koreluje się r.wt: inicjalizacja wszystkich wag na 0.5. r.wt, init+run pokazuje narastanie wag. act, init, run pokazuje aktywację lrate = e =0.005 pright = prob. prawej diagonali. Defaults zmienia pright =1 na 0.7, czyli pojawiają się linie w lewo; lrate =0.1 pokazuje plastyczność. Wagi robią się małe, rozmyte, bo prawd. warunkowe dla wzorców przy uczeniu całych kategorii robią się małe; jednostka wyjściowa ma niewielką selektywność. (c) 1999. Tralvex Yeap. All Rights Reserved

Uczenie modelu Mechanizm Hebbowski pozwala na uczenie się korelacji. Co stanie się jeśli dodamy więcej neuronów postsynaptycznych? Będą uczyć się tych samych korelacji! Jeśli użyć kWTA to jednostki wyjściowe będą konkurować ze sobą. Uczenie = przeżycie najlepiej przystosowanych (mechanizm Darwinowski) + specjalizacja. Uczenie w oparciu o samoorganizację Hamowanie kWTA: tylko najsilniejsze jednostki pozostają aktywne. Uczenie Hebbowskie: zwycięzcy stają się jeszcze silniejsi. Rezultat: różne neurony reagują na różne cechy sygnałów. (c) 1999. Tralvex Yeap. All Rights Reserved

Czego chcemy od uczenia modelowego? Środowisko dostarcza wielu informacji, ale sygnały są zmienne, marnej jakości, identyfikacja obiektów i relacji pomiędzy nimi nie jest możliwa bez obszernej wiedzy o tym, czego można oczekiwać. Potrzebny jest model stanów środowiska przygotowany (biased) do rozpoznawania i odpowiedniego działania; korelacje są warunkiem koniecznym (ale niewystarczającym) dla wykrycia związków przyczynowych. (c) 1999. Tralvex Yeap. All Rights Reserved

Standardowe PCA Analiza czynników głównych (principal component analysis, PCA), jest matematyczną techniką szukania liniowych kombinacji sygnałów o największej wariancji (dających największy wkład do zmian). Na razie intuicyjnie: pierwszy neuron ma nauczyć się najważniejszych korelacji, więc najpierw obliczamy korelacje jego wejść uśrednione w czasie: Cik=xixkt dla pierwszego elementu; potem dla następnego, ale każdy neuron ma być niezależny, więc ma obliczać ortogonalne kombinacje. Dla zbioru obrazów kolejne składowe wyglądają niezbyt ciekawie => Jak to zrobić za pomocą neuronów? (c) 1999. Tralvex Yeap. All Rights Reserved

PCA na jednym neuronie Załóżmy, że środowisko składa się z ukośnych linii. Przyjmijmy liniową aktywację dla chwili t (wzorca nr t): Niech zmiana wag określona będzie prostą reguła Hebba: wij(t+1) = wij(t) + e xi yj Po prezentacji wszystkich wzorców: Zmiana wag jest proporcjonalna do średniej iloczynu wejść/wyjść. Korelacja może zastąpić średnią. (c) 1999. Tralvex Yeap. All Rights Reserved

Korelacje Hebbowskie Korelacja: Jeśli średnie są zero a wariancje jeden to średnia z iloczynu jest korelacją; zmiana wag jest proporcjonalna do: Cik=xixkt to korelacje między wejściami; średnia waga zmienia się wolno. Zmiana wagi dla wejścia i jest ważoną średnią korelacji pomiędzy aktywnością tego wejścia i pozostałych. Po prezentacji wielu wzorców wagi zdominowane zostaną przez najsilniejsze korelacje i yj będzie obliczać najważniejszą składową PCA, to jest składową o największej wariancji. (c) 1999. Tralvex Yeap. All Rights Reserved

Przykład Dwa pierwsze wejścia są całkowicie skorelowane; trzecie niezależne. Zmiany następują zgodnie z reguła Hebba dla e=1. Zakładamy, że sygnały mają zerową średnia (xi=+1 tyle samo razy co xi=-1); dla każdego wektora x =(x1,x2,x3) obliczane jest y, a następnie nowe wagi. Skorelowane jednostki decydują o znaku i wielkości wag, a wagi tych wejść rosną szybko, podczas gdy waga nieskorelowanego wejścia x3 maleje. Wagi jednostki j zmieniają się jak: w(t+1) = w(t) + C w(t) (c) 1999. Tralvex Yeap. All Rights Reserved

Normalizacja Najprostsza normalizacja unikająca nieskończonego wzrostu wag: Dwij = e (xi – wij) yj Erkki Oja (1982) zaproponował: Dwij = e (xi –yj wij) yj Dla jednego wzorca po nauczeniu wagi przestają się zmieniać: Dwij = 0 =e (xi –yj wij) yj Waga wij = xi /yj = xi / Sk xk wkj Waga dla danego sygnału wejściowego jest więc ułamkiem całkowitej ważonej aktywności wszystkich sygnałów. Ta reguła również prowadzi do obliczenia najważniejszej składowej głównej. Jak obliczyć inne składowe? (c) 1999. Tralvex Yeap. All Rights Reserved

Problemy PCA Jak wygenerować kolejne składowe PCA w sieci neuronów? Numerycznie dokonujemy ortogonalizacji kolejnych yj ale nie da się tego prosto zrobić za pomocą sieci. Sekwencyjne PCA porządkuje składowe, od najważniejszej do najmniej ważnej; można to osiągnąć wprowadzając hamujące połączenia pomiędzy ukrytymi neuronami, ale jest to rozwiązanie sztuczne. PCA zakłada hierarchiczną strukturę: najważniejszą składowa dla wszystkich wzorców, w efekcie dostajemy np. dla analizy obrazów kolejne składowe jako szachownice o rosnącej liczbie kratek ponieważ korelacje pikseli dla dużej liczby obrazów znikają. Naturalne wzorce tworzą heterarchię, różne kombinacje są równie ważne dla różnych wzorców, podzbiory cech istotnych dla pewnych kategorii nie są ważne dla odróżnienia innych. (c) 1999. Tralvex Yeap. All Rights Reserved

Warunkowe PCA Conditional Principal Component Analysis (CPCA): korelacje liczymy tylko dla pewnego podzbioru cech z wzorców. PCA działa na wszystkich cechach, dając ortogonalne składowe, biologia na cechach określonego typu. CPCA działa na podzbiorach cech zapewniając, że różne składowe kodują różne interesujące kombinacje cech sygnałów (demony wyższego stopnia), np. krawędzie. Konkurencja realizowana za pomocą kWTA zapewni aktywność różnych neuronów dla różnych wzorców. W efekcie: kodowanie obrazów => Jak to zrobić za pomocą neuronów? (c) 1999. Tralvex Yeap. All Rights Reserved

Równania CPCA Neuron trenowany jest tylko na podzbiorze wzorców o określonych cechach, np. krawędziach nachylonych w określony sposób. Znormalizowana reguła Hebba: Dwij = e (xi -wij) yj Wagi przesuwają się w kierunku xi, pod warunkiem aktywności yj. W efekcie wagi robią się prawdopodobieństwami warunkowymi: P(xi=1|yj=1) = P(xi|yj) = wij Waga wij = prawdopodobieństwo tego, że wysyłający xi jest aktywny pod warunkiem tego, że odbierający yj jest aktywny. Dowód: sprawdzić warunek Dwij =0. (c) 1999. Tralvex Yeap. All Rights Reserved

Probabilistyczna interpretacja Sukces CPCA zależy od doboru funkcji warunkującej aktywność neuronów – automatyczny proces warunkowania możliwy jest na kilka sposobów: przez samoorganizację lub korekcję błędów. Aktywacje uśrednione w czasie reprezentowane są przez prawd. P(xi|t), P(yj|t), zmiana wag dla wszystkich wzorców t pojawiających się z P(t): Dwij = e St [P(yj|t) P(xi|t) - P(yj|t)wij] P(t) W stanie równowagi Dwij =0 więc: wij = St P(yj|t)P(xi|t)P(t) / St P(yj|t)P(t) = St P(yj,xi,t) / St P(yj,t) = P(xi ,yj)/P(yj) = P(xi|yj) Waga wij = prawdopodobieństwo warunkowe xi pod warunkiem yj. Jak biologicznie uzasadnić normalizację? (c) 1999. Tralvex Yeap. All Rights Reserved

Interpretacja biologiczna Znormalizowana reguła Hebba: Dwij = e (xi -wij) yj Załóżmy, że wagi są wij ~0.5, są wtedy 3 możliwości: 1. xi , yj ~1 czyli silna aktywność pre i postsynaptyczna, więc xi > wij, wagi rosną, czyli mamy LTP, jak w kanałach NMDA. 2. yj ~1 ale xi < wij, wagi maleją, mamy LTD, słaby sygnał wejściowy wystarczy do odblokowania jonu Mg+ kanału NMDA, silna aktywność postsynaptyczna może też odblokować inne kanały reagujące na napięcie i wprowadzić niewielką ilość Ca++. 3. Aktywność yj ~0 nie daje żadnych zmian, kanały napięciowe i NMDA nie są aktywne. Uczenie zachodzi szybciej dla małych wij, bo częściej xi < wij Jest to jakościowo zgodne z obserwacjami nasycenia wag. (c) 1999. Tralvex Yeap. All Rights Reserved

Normalizacja wag w CPCA Wagi CPCA nie są zbyt selektywne, nie prowadzą do zróżnicowania wzorców – nie mają „rozpiętości dynamicznej” (dynamic range); dla typowych sytuacji P(xi|yj) jest małe, a chcemy koło 0.5. Rozwiązanie: renormalizacja wag i wzmacnianie kontrastu. Normalizacja: nieskorelowane sygnały powinny mieć wagi 0.5, a w symulacjach z rzadko pojawiającymi się sygnałami xi dążą do wartości a~0.1-0.2. Rozłóżmy zmianę wag na dwa czynniki: Pierwszy człon powoduje wzrost wag w kierunku 1, drugi osłabienie w kierunku 0; jeśli chcemy utrzymać średnie wagi koło 0.5 trzeba zwiększyć aktywację pierwszego członu, np. tak: Nadal liniowa zależność wij = P(xi|yj) 1/2a. Parametr savg_cor[0,1] określa stopień normalizacji, 0=>bez zmian, 1=>wagi koło 0.5. (c) 1999. Tralvex Yeap. All Rights Reserved

Kontrast w CPCA Zamiast liniowej zmiany wag chcemy ignorować słabe korelacje a wzmocnić silne korelacje – zwiększyć kontrast pomiędzy interesującymi aspektami sygnałów i pozostałymi. Zwiększa to prostotę połączeń (słabe można pominąć) i przyspiesza proces uczenia, pomagając wagom zdecydować się co robić. Wzmacnianie kontrastu: zamiast liniowej zmiany wag zastosuj sigmoidalną: Dwa parametry: nachylenie (gain) g wt_sig.gain punkt 0.5 (offset) q wt_sig.off Uwaga: to jest skalowanie indywidualnych wag a nie aktywacji! (c) 1999. Tralvex Yeap. All Rights Reserved

Symulacje z kontrastem Wybieramy: Ch4, hebb_correl.proj. Opis: Rozdz. 4. 6 Zmienić Env_type z One_line na Five_lines i p_right=0.7 Dla tych linii CPCA daje jednakowe wagi ok. 0.2. Zmienić normalizację, ustawiając savg_cor=1 Wagi powinny być koło 0.5. Parametr savg_cor pozwala wpłynąć na liczbę cech używanych przez jednostki ukryte. Kontrast: ustawić wt_gain=6 zamiast 1, PlotEffWt pokaże krzywą efektywnych wag. Wpływ na uczenie: dla Three_lines, savg_cor=1 Zmienić wt_off od 1 do 1.25 (c) 1999. Tralvex Yeap. All Rights Reserved