Nieliniowe Sieci Neuronowe

Slides:



Advertisements
Podobne prezentacje
o radialnych funkcjach bazowych
Advertisements

Joanna Sawicka Wydział Nauk Ekonomicznych, Uniwersytet Warszawski
Wykład 5: Dyskretna Transformata Fouriera, FFT i Algorytm Goertzela
Metody badania stabilności Lapunowa
Obserwowalność System ciągły System dyskretny
Sieć jednokierunkowa wielowarstwowa
Mechanizm wnioskowania rozmytego
WYKŁAD 6 ATOM WODORU W MECHANICE KWANTOWEJ (równanie Schrődingera dla atomu wodoru, separacja zmiennych, stan podstawowy 1s, stany wzbudzone 2s i 2p,
Katedra Informatyki Stosowanej UMK
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Inteligencja Obliczeniowa Perceptrony
Badania operacyjne. Wykład 2
Wykład no 11.
Dynamika procesu uczenia sieci
Sieci pamieci skojarzeniowej
Sieci Neuronowe Wykład 4 Sieci rezonansowe
Sieci Neuronowe Wykład 5 Sieć Hopfielda
o radialnych funkcjach bazowych
Liniowe Sieci Neuronowe
Dobór optymalnej architektury
Sztuczne sieci neuronowe
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Wariacje na temat propagacji wstecznej
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz,
Czy potrafimy obliczyć wartość wyjścia sieci znając wartości jej wejść? Tak, przy założeniu, że znamy aktualne wartości wag i progów dla poszczególnych.
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania.
Mirosław ŚWIERCZ Politechnika Białostocka, Wydział Elektryczny
Sieci Hopfielda.
Sieci neuronowe jednokierunkowe wielowarstwowe
SYSTEMY CZASU RZECZYWISTEGO Wykłady 2008/2009 PROF. DOMINIK SANKOWSKI.
Sztuczne sieci neuronowe (SSN)
Paweł Stasiak Radosław Sobieraj Michał Wronko
formalnie: Budowa i zasada funkcjonowania sztucznych sieci neuronowych
Systemy wspomagania decyzji
Podstawy układów logicznych
Sztuczne Sieci Neuronowe
Metody Lapunowa badania stabilności
Obserwatory zredukowane
formalnie: Uczenie nienadzorowane
Uczenie w Sieciach Rekurencyjnych
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Systemy wspomagania decyzji
Wykład 2. Pojęcie regularnego odwzorowania powierzchni w powierzchnię i odwzorowania kartograficznego Wykład 2. Pojęcie regularnego odwzorowania powierzchni.
Modelowanie i Identyfikacja 2011/2012 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Warstwowe.
Modelowanie i identyfikacja 2010/2011Optymalizacja miary efektywności działania sztucznych sieci neuronowych Dr hab. inż. Kazimierz Duzinkiewicz, Katedra.
Miary efektywności/miary dobroci/kryteria jakości działania SSN
Dekompozycja Kalmana systemów niesterowalnych i nieobserwowalnych
II. Matematyczne podstawy MK
Obserwowalność i odtwarzalność
Sterowanie – metody alokacji biegunów II
MECHANIKA I WYTRZYMAŁOŚĆ MATERIAŁÓW
Źródła błędów w obliczeniach numerycznych
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Przykład 1: obiekt - czwórnik RC
Systemy dynamiczne 2014/2015Obserwowalno ść i odtwarzalno ść  Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Obserwowalność.
Grafika i komunikacja człowieka z komputerem
Sieci Neuronowe - Rok III - kierunek IS w IFAiIS UJ – 2006/ /10/06Prof. dr hab. Elżbieta Richter-Wąs Wykład 3 1. Zdolnosci uogólniania siecii, weryfikacja.
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Metody sztucznej inteligencji – technologie rozmyte i neuronoweReguła propagacji wstecznej  Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów.
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania Modelowanie i podstawy identyfikacji 2015/2016 Modele neuronowe – podstawy,
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Systemy rozmyte – wnioskowanie Mamdani’ego II © Kazimierz Duzinkiewicz, dr hab.
Systemy neuronowo – rozmyte
Perceptrony o dużym marginesie błędu
Jednorównaniowy model regresji liniowej
Metody sztucznej inteligencji
Perceptrony o dużym marginesie błędu
Systemy Ekspertowe i Sztuczna Inteligencja trudne pytania
Inteligencja Obliczeniowa Perceptrony
Zapis prezentacji:

Nieliniowe Sieci Neuronowe Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Sieci Neuronowe Wykład 3 Nieliniowe Sieci Neuronowe Sieci CP wykład przygotowany na podstawie. R. Tadeusiewicz, “Sieci Neuronowe”, Rozdz. 4,5. Akademicka Oficyna Wydawnicza RM, Warszawa 1993. Elzbieta Richter-Was

Nieliniowe sieci neuronowe Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Nieliniowe sieci neuronowe Siecią neuronową , która odegrała historycznie bardzo istotną rolę był PRECEPTRON koncepcja w której wprowadzono nieliniowy element przetwarzający informację. Wprowadzenie nieliniowości było uzasadnione, biologiczne układy faktycznie są nieliniowe. Nieliniowy element przyjmowany w sieciach neuronowych może być opisany równaniem. y = (e) gdzie (e) jest wybraną funkcją nieliniową a sygnał e odpowiada łącznemu pobudzeniu neuronu. Elzbieta Richter-Was

Nieliniowe sieci neuronowe Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Nieliniowe sieci neuronowe Lączne pobudzenie neuronu możemy uznać za zgodne z formułą przyjmowaną uprzednio dla ADALINE lub uzupełnioną o dodatkowo o składnik stały (bias) Aby uprościć zapis, przyjmijmy, że oprócz <x1, x2,..., xn> mamy również element x0, co pozwoli formalnie zapisać: lub wektorowo: e = WT X n e =  i xi i=1 n e =  i xi + 0 i=1 n e =  i xi i=0 Elzbieta Richter-Was

Nieliniowe sieci neuronowe Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Nieliniowe sieci neuronowe Formułę nieliniowego pobudzenia możemy też zapisać następująco, np. w postaci sumy kumulowanej, której postać w j-tym kroku symulacji może być wyznaczoną ze wzoru: e(j+1) = e(j) + albo funkcji majoryzacji: gdzie mi jest miarą efektywności i-tego wejścia wyznaczaną ze wzoru: mi = 1 gdy i xi > 0 mi = 0 gdy i xi  0 n  i(j) xi(j) i=1 n e = mi i=0 Elzbieta Richter-Was

Nieliniowe sieci neuronowe Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Nieliniowe sieci neuronowe Inne możliwe postacie: maximum e = MAXi i xi minimum e = MINi i xi produktowa e = i i xi Te i inne funkcje scalające wejściowe sygnały xi w łączne wypadkowe pobudzenie e, używane są w perceptronie jedynie jako wstępny etap przetwarzania informacji w neuronie. n Elzbieta Richter-Was

Nieliniowe sieci neuronowe Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Nieliniowe sieci neuronowe O specyficznych własnościach perceptonu decyduje funkcja  określającą nieliniowy związek miedzy sygnałem wypadkowego pobudzenia neuronu e, a jego odpowiedzią y. W klasycznym perceptonie funkcja  ma postać progowa: (e) = 1 gdy e  0; (e) = 0 gdy e < 0; Ta postać ma szereg wad ale jest łatwa do wyprowadzenia pewnych intuicji. Ponieważ sygnał wyjściowy przyjmuje wartość ( y=1 lub y=0 ) , może być rozważany w kategoriach określonej decyzji. Możliwa jest też interpretacja oparta na logice matematycznej, prawda lub fałsz. Percepton może być interpretowany jako układ realizujący pewną funkcję logiczną, a więc automat skończony. Elzbieta Richter-Was

Własności nieliniowego modelu neuronu Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Własności nieliniowego modelu neuronu Dygresja: Zależnie od postaci przyjętej funkcji (e) sygnał y można rozpatrywać jako binarny y  { 0, 1 } bipolarny y  { -1, 1 } Pozornie różnica jest nieistotna, trywialne przeskalowanie. Może mieć jednak poważne konsekwencje ponieważ punkty należące do zbioru { 0,1} są wierzchołkami jednostkowego hiperszescianu w Rn, natomiast punkty należące do zbioru {-1,1} leżą na powierzchni jednostkowej sfery Rn. W n-wymiarowej przestrzeni sześcian i sfera różnią się w sposób zasadniczy. Porównajmy objętości: objetosc szescianu: Vs = an objetosc kuli: Vk = pn/2 / (n/2)! rn gdy n jest parzyste Vk = 2n p(n-1)/2((n-1)/2)! / n! rn gdy n jest nieparzyste Elzbieta Richter-Was

Własności nieliniowego modelu neuronu Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Własności nieliniowego modelu neuronu Tak więc dla jednostkowego boku a, objętość sześcianu jest stała Vs = 1, podczas gdy objętość kuli o jednostkowym promieniu r, Vk  0 dla n   . Wszystkie punkty sfery są oczywiście jednakowo odlegle od jej środka (odległością jest promień sfery), natomiast dla sześcianu, narożniki są odlegle od środka o sqrt(n/2) (odległość rośnie). Sześcian coraz bardziej przypomina “jeża”. W większych wymiarach..... należy dość ostrożnie podchodzić do intuicji geometrycznych. Elzbieta Richter-Was

Własności nieliniowych sieci wielowymiarowych Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Własności nieliniowych sieci wielowymiarowych Przyjmując interpretację progowej funkcji (e) jako funkcji rozdzielającej przestrzeń wejściowych sygnałów X na obszar wyróżniony, w którym y=1, oraz na resztę – należy stwierdzić, że przy przyjęciu najczęściej rozważanej reguły scalania wejściowych sygnałów w postaci podział ten formułuje granica mająca postać hiperpłaszczyzny. Istotnie, jeśli (e) = 1 gdy e  0; oraz (e) = 0 gdy e < 0; to obszar w którym neuron podejmuje decyzje y=1 ogranicza powierzchnia e=0, czyli twór o równaniu Dla n=2 jest to równanie lini prostej, dla n=3 – równanie płaszczyzny, a dla n > 3 twór nazywany prawidłowo rozmaitością liniową stopnia n-1, a popularnie traktowany jako płaszczyzna w n-wymiarowej przestrzeni czyli w skrócie hiperpłaszczyzna. . n e =  i xi i=1 n  i xi = 0 i=1 Elzbieta Richter-Was

Własności nieliniowych sieci wielowymiarowych Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Własności nieliniowych sieci wielowymiarowych Możemy interpretować działanie neuronu budującego perceptron jako dyskryminatora liniowego. Może on zrealizować te wszystkie odwzorowania, w których wystarczy oddzielenie podobszaru przestrzeni X mającego formę otwartej podprzestrzeni ograniczonej hiperpłaszczyzną. Proces uczenia, polegający zawsze na zmianie wartości współczynników i , pozwala ustalić graniczną hiperpłaszczyznę w dowolnym położeniu, nie pozwala jednak na zmianę charakteru realizowanego odwzorowania, niezależnie od tego jak długo by się go uczyło. Elzbieta Richter-Was

Własności nieliniowych sieci wielowymiarowych Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Własności nieliniowych sieci wielowymiarowych Nierozwiązywalne zadanie: “problem XOR” Percepton nie może się nauczyć realizacji odwzorowania y = x1  x2 gdzie operator  oznacza alternatywę wyłączającą (eXclusive OR). Kilkuwarstwowa sieć: Jednak, czego nie potrafi zrobić jeden neuron, może zrobić kilkuwarstwowa sieć, ponieważ dla nieliniowych neuronów dodanie nowych warstw istotnie poszerza zakres odwzorowań, które sieć potrafi zrealizować. Elzbieta Richter-Was

Własności nieliniowych sieci wielowymiarowych Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Własności nieliniowych sieci wielowymiarowych Rozważmy przykładową sieć dwuwarstwową : Pierwsza warstwa, złożona z k neuronów otrzymujących sygnały wejściowe X, dzieli przestrzeń X tych sygnałów za pomocą k oddzielnych hiperpłaszczyzn. Powstaje w ten sposób układ 2k liniowo rozdzielnych obszarów, które sygnalizowane są przez odpowiednie zestawy 0 i 1 jako wartości sygnałów neuronów pierwszej warstwy. Sygnały te podawane są z kolei na wejścia neuronów drugiej warstwy, które dokonują klasyfikacji zestawów tych sygnałów według zasady: sygnał wyjściowy neuronu drugiej warstwy ma wartość 0 lub 1 w zależności od tego, jaki podzbiór neuronów pierwszej warstwy sygnalizuje 0, a jaki 1. W efekcie neurony drugiej warstwy mogą rozpoznawać (sygnalizować) pojawienie się wektorów wejściowych X zawartych w pewnych ograniczonych obszarach przestrzeni X. Obszary te nie muszą być już równoważne do całej podprzestrzeni X, ponieważ możliwe jest sygnalizowanie bardziej złożonego podobszaru, ograniczonego z wielu stron fragmentami wielu hiperpłaszczyzn. Elzbieta Richter-Was

Własności nieliniowych sieci wielowymiarowych Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Własności nieliniowych sieci wielowymiarowych Siec dwuwarstwowa nie pozwala jeszcze rozpoznać dowolnego podobszaru przestrzeni X, ponieważ łatwo sprawdzić, że obszary sygnalizowane przez neurony drugiej warstwy musza być wypukłe oraz jednospójne (simpleksy). Jest to dość istotne ograniczenie. Aby się od niego uwolnić należy wprowadzić trzecią warstwę neuronów. Dopiero w rezultacie dołączenia trzeciej warstwy możliwe jest utworzenie dowolnych obszarów. Za pomocą nieliniowej sieci neuronowej o przynajmniej trzech warstwach można zrealizować dowolne odwzorowanie, wiążące w całkowicie dowolny sposób wejściowe sygnały X z wyjściowymi sygnałami sieci. Elzbieta Richter-Was

Formy nieliniowości neuronu Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Formy nieliniowości neuronu Funkcja wiążąca łączne pobudzenie neuronu e z jego sygnałem wyjściowym y y = (e) Funkcja ta może mieć różne postacie, dotychczas omawialiśmy postać progowa. Sigmoidalna funkcja wywodzącą się z funkcji logistycznej. d  / de = y ( 1 – y ) Przebieg funkcji logistycznej dla dwóch wartości parametrów  (oznaczenie na rysunku  =  Ważną własnością funkcji logistycznej jest fakt, że zbiór jej wartości należy do otwartego zbioru y(0,1), co oznacza, ze wartości 0, 1, mające istotne znaczenie przy niektórych interpretacjach funkcjonowania sieci neuronowych są nieosiągalne. Elzbieta Richter-Was

Formy nieliniowości neuronu Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Formy nieliniowości neuronu Funkcja sinus: chętnie stosowana, można doformułować do przedziału zamkniętego [-1,1]: -1 gdy e < -/2 y = sin( e ) gdy -/2 < e < /2 1 gdy e > /2 Ta postać funkcji jest szczególnie przydatna przy budowie sieci dokonującej transformaty Fouriera wejściowego sygnału. Funkcja tangens hiperboliczny: y = tanh ( e ) który można rozpisać jako exp ( e ) - exp ( -e ) y = exp ( e ) + exp ( -e ) Przy zastosowaniu tej funkcji y(0,1) Zaletą tej funkcji jest prosta formuła określająca pochodną tej funkcji w zależności od jej wartości d  / de = ( 1 + y ) ( 1 – y ) Elzbieta Richter-Was

Formy nieliniowości neuronu Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Formy nieliniowości neuronu Niekiedy nieliniowość ma postać nie różniczkowalną, przydatną w praktycznych zastosowaniach, ale kłopotliwą do teoretycznej analizy. Z bardziej znanych postaci można wymienić: Funkcja BSB (Brain State in a Box) 1 gdy e > 1 y = e gdy 1 > e > -1 -1 gdy e < -1 Funkcje signum: 1 gdy e > 0 y = 0 gdy e = 0 -1 gdy e < 0 Funkcja perceptonowa: e gdy e > 0 y = 0 gdy e  0 Funkcje signum: 1 gdy e > 0 y = 0 gdy e = 0 -1 gdy e < 0 Funkcja SPR (Spatio-Temporal Pattern Recognition) y(j+1) = y(j) + A [ -a y(j) + b e+ ] gdzie “funkcja ataku” A[u] = u gdy u > 0 gu gdy u  0 zapis e+ oznacza e+ = e gdy e > 0 0 gdy e  Zmodyfikowana funkcje signum: 1 gdy e > 0 y = -1 gdy e  0 Funkcja BAM (Bidirectorial Associative Memory) 1 gdy e > 0 y(j+1) = y(j) gdy e = 0 -1 gdy e < 0 Funkcja skoku jednostkowego: 1 gdy e > 0 y = 0 gdy e  0 Powyższe funkcje są “inżynierskie”: opis który pozwala na wygodna analizę matematyczna, łatwą realizacje techniczna (perceptron) lub wygodne modelowanie w formie programu symulacyjnego (signum). Elzbieta Richter-Was

Uczenie nieliniowego neuronu Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie nieliniowego neuronu Rozważmy problem uczenia nieliniowych sieci neuronowych. Dla uproszczenia analizujemy wyłącznie regułę DELTA w jej podstawowej postaci. U = < <X(1) , z(1) >, < X(2) , z(2) > , ....... , <X(N) ,z(N) > > Formułe uczenia opieramy na regule minimalizacji funkcjonału błędu średniokwadratowego: Q = ½  ( z(j) – y(j) )2 gdzie y(j) = f ( i(j) xi(j) ) Rozkładając funkcjonał błędu na elementy składowe związane z poszczególnymi krokami procesu uczenia Q =  Q(j) gdzie Q(j) = ½ ( z(j) – (y(j) )2 N j=1 N j=1 N j=1 Elzbieta Richter-Was

Uczenie nieliniowego neuronu Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie nieliniowego neuronu Możemy zgodnie z gradientową strategią procesu uczenia zapisać algorytm zmian czynników wag i(j+1) – i(j) = i(j) = -  Q(j) / i Analogiczny wzór wyprowadzono wcześniej dla sieci ADALINE, jednak treść tego wzoru jest w tym wypadku bogatsza ze względu na nieliniową funkcję (e). Q(j) / i = Q(j) / yi(j) yi(j) / i = Q(j) / yi(j) yi(j) / e(j) e(j) / i łatwo możemy obliczyć: Q(j) / yi(j) = - (z(j) – y(j) ) = - (j) e(j) / i = xi(j) Elzbieta Richter-Was

Uczenie nieliniowego neuronu Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie nieliniowego neuronu Problem może być natomiast z wyrażeniem yi(j) / e(j) = (e) / e(j) gdzie (e) nie zawsze jest różniczkowalne. Ostateczny wzór, na podstawie którego prowadzi się proces uczenia ma postać i(j) = -  (j) (e) / e(j) xi(j) Elzbieta Richter-Was

Uczenie nieliniowego neuronu Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie nieliniowego neuronu Dość chętnie (bezkrytycznie) stosuje się w rozważaniach funkcje logistyczną y = (e) = 1/(1 + exp( -be) ) która ma łatwą postać pochodnej, (e) / e(j) = y(j) ( 1 - y(j) ) Ostateczny wzór dla funkcji logistycznej może być zapisany w prostszej postaci i(j) = -  (z(j) – y(j) ) ( 1 - y(j) ) y(j) xi(j) Powyższy algorytm uczenia jest możliwy do bezpośredniego zastosowania jedynie w przypadku sieci jednowarstwowej. Elzbieta Richter-Was

Uczenie sieci nieliniowej Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie sieci nieliniowej Dla sieci wielowarstwowych, które mają istotnie szersze możliwości przetwarzania informacji niż sieci jednowarstwowe omawiany poprzednio wzór nie daje się zastosować. Dla warstw wewnętrznych nie ma możliwości bezpośredniego określenia oczekiwanych (wymaganych) wartości sygnałów wejściowych z(j) , a tym samych określenia wartości błędu (j) . Rozważając ciąg U = < <X(1) , Z(1) >, < X(2) , Z(2) > , ....... , <X(N) ,Z(N) > > mamy do dyspozycji n-wymiarowe wektory wejściowe X oraz k-wymiarowe wektory wyjściowe Z z neuronów terminalnych. Jeżeli odnotujemy błąd, czyli różnice ( X(j) - Z(j) ), to nie będziemy w stanie ustalić w jaki sposób za pojawienie się błędu odpowiadają neurony warstwy wyjściowej a jaki sposób powstał w elementach wcześniejszych (wewnętrznych) warstw. (Noszą one nazwę warstw ukrytych, “hidden layers”). Przez wiele lat nie było dobrego pomysłu w jaki sposób uczyć warstwy ukryte. Elzbieta Richter-Was

Uczenie sieci nieliniowej Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie sieci nieliniowej W latach 80-tych zaproponowano algorytm tzw. wstecznej propagacji błędów (backpropagation), polegający na tym że mając wyznaczony błąd (m) (j) (j-ty krok uczenia m-tego neuronu) możemy “rzutować” ten błąd wstecz do wszystkich tych neuronów, których sygnały stanowiły wejścia do m-tego neuronu. W sieci wielowarstwowej niemożliwe jest ściśle rozgraniczenie sygnałów wyjściowych od sygnałów wejściowych, z tego względu wprowadzamy jednolitą numeracje wszystkich neuronów, oraz stosujemy stałe oznaczenia ym(j) , niezależnie od tego czy jest to sygnał wejściowy czy wyjściowy (zawsze można założyć istnienie neuronu buforującego o odpowiedzi jednostkowej, takiego ze ym(j) =xi(j) ). Elzbieta Richter-Was

Uczenie sieci nieliniowej Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie sieci nieliniowej Backpropagation w j-tym kroku uczenia, sygnał na wyjściu m-tego neuronu może być wyznaczony z następującej zależności: ym(j) =  (  i (m)(j) yi(j) ) i  i gdzie i oznacza zbiór neuronów dostarczających sygnał wejściowy do konkretnego, rozważanego aktualnie m-tego neuronu. Pozornie zapis jest niejednoznaczny, ale ta niejednoznaczność jest pozorna ponieważ można (jeżeli chwilowo pominiemy problem sprzężeń zwrotnych) wyznaczyć taką kolejność wyliczania elementu ym(j) , aby wszystkie yi(j), konieczne do jego wyliczenia, były już znane. Elzbieta Richter-Was

Uczenie sieci nieliniowej Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie sieci nieliniowej Na samym początku wyznacza się poprawki dla neuronów stanowiących wyjściową warstwę sieci. Dla poszczególnych sygnałów ym(j) istnieją w ciągu uczącym wzorcowe (oczekiwane) wartości zm(j) , z którymi można je porównywać, wyznaczając bezpośrednio błąd m(j) . m(j) = ( ym(j) - zm(j) ) i (m)(j) =  m(j) d(e)/dem(j) yi(j) dla funkcji logistycznej wzór ten ulega znacznemu uproszczeniu: i (m)(j) = -  (zm(j) – ym (j) ) ( 1 - ym (j) ) yi(j) ym (j) k  0 Elzbieta Richter-Was

Uczenie sieci nieliniowej Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie sieci nieliniowej Dla warstwy ukrytej, przez analogię możemy zapisać i (m)(j) =  m(j) d(e)/dem(j) yi(j) ale teraz nie mamy możliwości bezpośrednego wyznaczenia m(j). Załóżmy, że rozważany neuron należy do warstwy ukrytej, ale sygnały od niego docierają tylko do warstwy wyjściowej (dla której potrafimy określić k(j) ). Wówczas (backpropagation) m(j) =  m (k)(j) k(j) m (k)(j) – waga w neuronie o numerze k, przy jego wejściu m Rzutowane wstecznie błędy przemnażane są przez te same współczynniki, przez które mnożone były sygnały, tyle tylko, że kierunek przesyłania informacji zostaje w tym przypadku odwrócony; zamiast od wejścia do wyjścia przesyła się je od wyjścia kolejno w kierunku wejścia. Elzbieta Richter-Was

Uczenie sieci nieliniowej Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie sieci nieliniowej Powyższą technikę propagacji wstecznej błędów można powtarzać dla kolejno coraz głębszej warstwy sieci. Każdy neuron z warstwy ukrytej albo przesyła sygnały do wartości wyjściowych, albo znajduje się w jednej z głębszych warstw, wówczas jego błąd można oszacować z chwilą określenia błędów dla wszystkich neuronów w sieci które są odbiorcą jego sygnałów. W sieci feedforward zawsze daje się określić taką kolejność wstecznej propagacji błędów, która pozwala obliczyć błędy dla wszystkich elementów sieci. Uczenie tą metoda jest stosunkowo skuteczne ale powolne. Przyspieszanie: techniki momentu, kumulanty błędów, odrzucania małych poprawek, itp. Elzbieta Richter-Was

Sieci CP (Counter Propagation) Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Sieci CP (Counter Propagation) Wada, jaką jest powolny i uciążliwie pracochłonny proces uczenia w sieciach ze wsteczną propagacja błędów sprawiła, że pojawiły się jej sprawniejsze modyfikacje. Jedną z najbardziej znanych jest propozycja Hecht-Nielsena, określana jako sieć “Counter-Propagation” (CP). Elzbieta Richter-Was

Sieci CP (Counter Propagation) Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Sieci CP (Counter Propagation) Sieć CP właściwie nie jest oryginalną propozycją, lecz stanowi kompilację sieci Kohonena i sieci Grossberga. Jednak zestawienie tych sieci w strukturze sieci CP wprowadziło istotnie nowa jakość – sieć stosunkowo szybko się uczącą i mającą (potencjalnie) nieograniczony zakres możliwych odwzorowań pomiędzy sygnałem wejściowym X i wyjściowym Y. Elzbieta Richter-Was

Pierwsza warstwa sieci CP jest warstwą realizująca algorytm Kohonena. Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Sieci CP Podstawowym założeniem przy stosowaniu sieci CP jest normalizacja sygnałów wejściowych. Każdy wektor X wprowadzany do systemu musi spełniać warunek ||X|| = 1 (czyli XTX = 1). Normalizacja X jest dokonywana poza siecią neuronową. Normalizacja wejść jest potrzebna ze względu na element konkurencji (rywalizacji) występujący w pierwszej warstwie sieci CP. Do dalszego przetwarzania w kolejnej warstwie sieci przesyłany jest zaledwie jeden sygnał, pochodzący od tego elementu warstwy pierwszej który był najbardziej optymalnie dopasowany do przedstawionego sygnału wejściowego X. Pierwsza warstwa sieci CP jest warstwą realizująca algorytm Kohonena. Elzbieta Richter-Was

Pierwsza warstwa sieci CP jest warstwą realizująca algorytm Kohonena. Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Sieci CP Pierwsza warstwa sieci CP jest warstwą realizująca algorytm Kohonena. Wektory wejściowe X mnożone są przez wektory wag Wj poszczególnych neuronów sieci dostarczając wartości ej będących sumarycznym (ważonym) pobudzeniem każdego neuronu. ej = WjT X a następnie wybierany jest element o największej wartości pobudzenia ej (“zwycięzca”) i tylko jego sygnał wyjściowy przyjmuje wartość 1. To jest właśnie ten tytułowy counter zastępujący i symbolizujący wszystkie sygnały wejściowe. Elzbieta Richter-Was

Zasada pierwszej warstwy sieci CP Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Zasada pierwszej warstwy sieci CP Zasada działania sieci Kohonena zakłada, że sygnał wejściowy ej każdego neuronu jest miarą stopnia podobieństwa pomiędzy aktualnym sygnałem wejściowym X, a abstrakcyjnym wzorcem sygnału, na którego wykrywanie wytrenowany jest j-ty neuron. Ten wzorzec idealnego sygnału dla j-tego neuronu zawarty jest w jego wektorze wag Wj. Jeżeli: X = Wj neuron odpowiada sygnałem o maksymalnej wartości X  Wj wówczas ej jest miarą kąta pomiędzy wektorami X i Wj ej = WjT X = ||WjT|| ||X|| cos(a) miara ta jest wiarygodna jeżeli ||WjT|| = 1 oraz ||X|| = 1 Przykład sieci CP ilustrujący wady jej działania: WT1 = [1 2 3] WT2 = [0 1 0] X = [1 2 3] to e1 =14, e2 = 2  wgrywa neutron 1 X = [0 1 0] to e1 = 2, e2 = 1  wygrywa neuron 1 ZLE Błąd pojawił się ponieważ wejścia X oraz wektor wag nie były znormalizowane. Elzbieta Richter-Was

Zasada drugiej warstwy sieci CP Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Zasada drugiej warstwy sieci CP Druga warstwa sieci realizuje algorytm Outstar Grossberga. Jeżeli oznaczymy, że sygnały wejściowe do tej warstwy tworzą wektor K, a sygnał wyjściowy Y obliczany jest wg. klasycznej reguły Y = V K, gdzie macierz współczynników wagowych V składa się z transponowanych wektorów Vi odpowiadających zestawom wag kolejnych neuronów warstwy wyjściowej. Z formalnego punkty widzenia, sygnał z neuronów warstwy wyjściowej ma postać yi =  vij kj gdzie m ma z reguły dużą wartość. W praktyce tylko jeden element wektora K ma wartość 1, pozostałe maja wartość 0 i wystarcza utożsamić wyjścia yj z pewnym współczynnikiem vij. Na wszystkich wyjściach pojawiają się tylko te wartości vij które odpowiadają numerowi j dla których kj=1. Zauważmy, że działanie to przypomina odczyt gotowej tabeli. m j=1 Elzbieta Richter-Was

Uczenie pierwszej warstwy sieci CP Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie pierwszej warstwy sieci CP Uczenie sieci CP przebiega równocześnie w obu warstwach sieci. Jest to proces uczenia z nauczycielem, wraz z każdym wektorem wejściowym X podany jest wektor wyjściowy, jaki użytkownik chce uzyskać z sieci.  przy uczeniu pierwszej warstwy stosuje się technikę Kohonena, która jest formą uczenia bez nauczyciela  przy uczeniu drugiej warstwy stosuje się algorytm Grossberga do bezpośredniego wymuszania pożądanych odpowiedzi sieci. Zgodnie z regułą Kohonena uczenie przebiega następująco: Elzbieta Richter-Was

Uczenie pierwszej warstwy sieci CP Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie pierwszej warstwy sieci CP Na k-tym kroku pokazuje się wektor wejściowy X(k) , a dysponując (z wcześniejszych kroków procesu uczenia) wartościami wszystkich wektorów Wj(k) można obliczyć wszystkie wartości ej(k) ej(k) = Wj(k)T X(k) , j=1,2,...,m oraz wyznaczyć numer “zwycięskiego” neuronu (tzn. tego, dla którego zachodzi)  ( j  z ) ez(k) > ej(k) Korekcie podlegają wyłącznie wagi “zwycięskiego”neuronu według reguły Wz(k+1) = Wz(k) + 1 ( X(k) – Wz(k) ) współczynnik uczenia 1 jest przyjmowany początkowo jako 0.7, potem stopniowy zmniejszany. Elzbieta Richter-Was

Uczenie pierwszej warstwy sieci CP Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie pierwszej warstwy sieci CP Przy realizacji metody Kohonena najważniejsze są pierwsze kroki. Najpierw należy nadać współczynnikom wagowym wij wartości początkowe. Należy zapewnić unormowanie wszystkich wag ||Wj(1)|| = 1 oraz wskazane jest takie dobranie kierunków, by w sposób równomierny rozkładały się na powierzchni jednostkowej w przestrzeni n-wymiarowej. To nie jest takie proste w realizacji. Technika “convex combination method”. Początkowo, wszystkim składowym wszystkich wektorów wag nadaje się te sama wartość początkowa ij(1) = sqrt(1/n) W procesie uczenia jako wektory wejściowe podajemy xi(k)’ = 2(k) xi(k) + [1 - 2(k) ] sqrt(1/n) gdzie 2(k) – funkcja adaptująca, która dla małych k przyjmuje małe wartości a potem stopniowo rośnie to wartości 1 i tą wartość zachowuje podczas całego procesu uczenia. Elzbieta Richter-Was

Uczenie drugiej warstwy sieci CP Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie drugiej warstwy sieci CP Uczenie drugiej warstwy sieci jest wykonywane wg. następującej reguły: vij(k+1) = vij(k) + 3 (yi – zi) kj Ponieważ tylko jedna wartość kj jest różna od zera i w każdym kroku procesu uczenia korygowane są tylko te wagi, które łączą poszczególne neurony wyjściowej warstwy z jednym tylko – “zwycięskim” elementem poprzedniej warstwy. Ta zasada (zwana regułą “outstar”) znacznie zmniejsza pracochłonność procesu uczenia. Parametr 3 wybiera się “ostrożnie” tak ,aby proces uczenia nie spowodował wpisania do “look-up” tablicy błędnych wartości. Elzbieta Richter-Was

Uczenie drugiej warstwy sieci CP Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Uczenie drugiej warstwy sieci CP Sieć CP “potrafi uogólniać i kojarzyć dostarczone jej informacje”. W rozbudowanej wersji jest ona dość chętnie i z powodzeniem stosowana. Doskonale zdają egzamin jako systemy klasyfikacji i rozpoznawania obrazów, są wykorzystywane w automatyce i robotyce, są cenione jako systemy do redukcji ilości przesyłanych informacji (transmisji obrazów). Elzbieta Richter-Was

Autoasocjacyjna siec CP Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Autoasocjacyjna siec CP Wersja autoasocjacyjna oznacza, ze sieć nauczona realizacji odwzorowania X  Y może również realizować odwzorowanie Y  X Uczenie sieci polega na tym ze na wejście podaje się X, Y (jako sygnały wejściowe) na wyjściu oczekuje się również X,Y. Siec uczy się realizacji odwzorowania tożsamościowego. Eksploatuje się sieć podając tylko sygnał X(k) (wejścia Y bez sygnału), na wyjściu otrzymuje się odtworzony X(k) oraz również Y(k) który na etapie uczenia był kojarzony z X(k) . Elzbieta Richter-Was

Autoasocjacyjna siec CP Teoretyczne Podstawy Informatyki - Rok I - kierunek IS w IFAiIS UJ - 2005/2006 Autoasocjacyjna siec CP Ponieważ na etapie uczenia sygnały X, Y są całkowicie równoprawne, sieć potrafi także odtwarzać odwzorowanie odwrotne. Wystarczy na wejściu podać sygnał Y(k) , pozostawiając wejścia X(k) bez sygnału, na wyjściu otrzymamy X(k) oraz oczywiście odtworzony przez sieć Y(k). Sieci CP znalazły liczne zastosowania:  Doskonale zdają one egzamin jako systemy klasyfikacji i rozpoznawania obrazów,  są wykorzystywane w automatyce i robotyce do sterowania określonych systemów,  są bardzo cenione jako systemy służące do przesyłania informacji – na przykład podczas transmisji obrazów. Elzbieta Richter-Was