Wstęp do kognitywistyki OBLICZENIA NEUROPODOBNE. Bez reguł

Slides:



Advertisements
Podobne prezentacje
Sieć jednokierunkowa wielowarstwowa
Advertisements

Mechanizm wnioskowania rozmytego
SIECI NEURONOWE Sztuczne sieci neuronowe są to układy elektroniczne lub optyczne, złożone z jednostek przetwarzających, zwanych neuronami, połączonych.
SZTUCZNE SIECI NEURONOWE
Inteligencja Obliczeniowa Sieci dynamiczne cd.
Katedra Informatyki Stosowanej UMK
Katedra Informatyki Stosowanej UMK
Inteligencja Obliczeniowa Sieci dynamiczne.
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Inteligencja Obliczeniowa Sieci o zmiennej strukturze.
Inteligencja Obliczeniowa Perceptrony
Sztuczne sieci neuronowe
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Teoria równowagi ogólnej (1874)
Sztuczna Inteligencja Reprezentacja wiedzy II Systemy produkcyjne Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W. Duch.
Czy potrafimy obliczyć wartość wyjścia sieci znając wartości jej wejść? Tak, przy założeniu, że znamy aktualne wartości wag i progów dla poszczególnych.
Obserwowalność System ciągły System dyskretny u – wejścia y – wyjścia
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania.
Systemy dynamiczne 2010/2011Systemy i sygnały - klasyfikacje Kazimierz Duzinkiewicz, dr hab. inż.Katedra Inżynierii Systemów Sterowania 1 Dlaczego taki.
Mirosław ŚWIERCZ Politechnika Białostocka, Wydział Elektryczny
Sieci Hopfielda.
Sztuczne sieci neuronowe (SSN)
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Bramki Logiczne.
formalnie: Budowa i zasada funkcjonowania sztucznych sieci neuronowych
Układy sekwencyjne pojęcia podstawowe.
POJĘCIE ALGORYTMU Pojęcie algorytmu Etapy rozwiązywania zadań
Systemy wspomagania decyzji
Podstawy układów logicznych
Sztuczne Sieci Neuronowe
formalnie: Uczenie nienadzorowane
Detekcja twarzy w obrazach cyfrowych
Uczenie w Sieciach Rekurencyjnych
Wstęp do kognitywistyki Rola eksplanacyjna reprezentacji. Koneksjonizm
Systemy wspomagania decyzji
Modelowanie i Identyfikacja 2011/2012 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Warstwowe.
Model I/O bazujący na HSWN Problem uczenia sieci HSWN
Wstęp do kognitywistyki OBLICZENIA NEUROPODOBNE. Bez reguł
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Instytut Zarządzania – Państwowa Wyższa Szkoła Zawodowa
Systemy rozproszone  Rozdzielenie obliczeń między wiele fizycznych procesorów.  Systemy luźno powiązane – każdy procesor ma lokalną pamięć; procesory.
Do technik tych zalicza się: * sztuczne sieci neuronowe
Algorytmika.
Modelowanie Kognitywne
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Metody sztucznej inteligencji – technologie rozmyte i neuronoweReguła propagacji wstecznej  Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów.
SZTUCZNA INTELIGENCJA
Wstęp do programowania Wykład 1
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania Modelowanie i podstawy identyfikacji 2015/2016 Modele neuronowe – podstawy,
Narzędzia AI Dominik Ślęzak, Pokój Wykład dostępny na:
GeneracjeTechnologia Architektura przetwarzania 0. Przekaźniki elektromechaniczne 1. Lampy elektronowe 2. Tranzystory 3. Układy scalone 3.5.Układy dużej.
Metody Inteligencji Obliczeniowej Adrian Horzyk Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii.
Cz. Nosala (1979, 1993) koncepcja problemu i ich podziału (taksonomii) Każda sytuacja poznawcza ukierunkowana na osiągnięcie jakiegoś celu zawiera następujące.
Belief Nets Autor: inż. 2013r źródło tła:
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Elementy cyfrowe i układy logiczne
Podstawowe rodzaje modeli rozmytych
Systemy neuronowo – rozmyte
Kognitywne właściwości sieci neuronowych
Perceptrony o dużym marginesie błędu
Wstęp do Informatyki - Wykład 6
Metody sztucznej inteligencji
Perceptrony o dużym marginesie błędu
Systemy Ekspertowe i Sztuczna Inteligencja trudne pytania
Inteligencja Obliczeniowa Perceptrony
POJĘCIE ALGORYTMU Wstęp do informatyki Pojęcie algorytmu
Perceptrony wielowarstwowe, wsteczna propagacja błędów
Zapis prezentacji:

Wstęp do kognitywistyki OBLICZENIA NEUROPODOBNE. Bez reguł Marcin Miłkowski

McCulloch i Pitts (1943) Pierwszy model mózgu jako sieci neuronów. Neurony to elementy cyfrowe. Albo przewodzą prąd, albo nie. Neurony jako bramki logiczne: odpowiednio połączone są równie silne jak maszyna Turinga.

Perceptron F. Rosenblatt (1957): uczące się sieci neuronowe – perceptrony. Przez modyfikację połączeń między neuronami można zmienić działanie sieci. Wystarczy dopasować wagę połączeń tak, aby wejściu odpowiadało odpowiednie wyjście. Wtedy perceptron rozpoznaje wzorce.

Perceptron jako klasyfikator Wiele wejść (X1... X7) Wiele wag (W1... W7) Jedno wyjście (y), binarne Perceptron daje odpowiedź „tak” lub „nie”. Klasyfikacja = rozpoznawanie wzorca

Mark I Perceptron Wczesne perceptrony były częściowo mechaniczne (potencjometry i silniczki!) Wielki entuzjazm Uczenie polega na dostosowaniu wag – zmniejszenia rozbieżności między realnym wyjściem a wyjściem założonym

Minsky i Papert (1969): koniec wczesnego koneksjonizmu Perceptrony nie nauczą się nawet prostych funkcji takich jak alternatywa rozłączna (XOR)! Minsky to szkolny kolega Rosenblatta! 

Sieci wielowarstwowe Sieci z wieloma warstwami neuronów mogą zrealizować każdą obliczalną funkcję matematyczną. W 1969 roku nie był znany algorytm ich uczenia, a algorytm perceptronu nie wystarczał. Lata 80: algorytm propagacji wstecznej, który pozwala nauczyć się więcej niż w regule perceptronu (inaczej traktuje się błąd, ale bez realizmu biologicznego). Renesans koneksjonizmu!

Koneksjonizm klasyczny Zwykle trzy warstwy Sztuczne sieci neuronowe symulują procesy poznawcze. W latach 1980 były bardzo uproszczone.

Koneksjonizm Sieci nerwowe przekształcają sygnał wejściowy na wyjściowy, a nie symbole. Przekształcenie zależy od wag połączeń. Uczenie sieci to ustawianie wag. Sieci pracują równolegle, a nie sekwencyjnie jak GPS. I nie ma w nich żadnych reguł!

Koneksjonizm klasyczny James McClelland (Stanford University) David E. Rumelhart (1942-2011) McClelland żyje i miewa się całkiem dobrze.

Nabywanie czasu przeszłego w j. angielskim Końcówki czasu past simple Regularne (90%) talk => talked pit => pitted Nieregularne (10%) hit => hit get => got go => went Jak dzieci to opanowują?

Typowa krzywa uczenia Im więcej się uczymy, tym lepiej wiemy

Krzywa uczenia czasowników Krzywa u-kształtna… Dlaczego?

Fazy rozwojowe: wizja tradycyjna Faza 1: Uczenie na pamięć początkowo bezbłędnie, ale mało czasowników Faza 2: Wydobywanie reguły nadmierna regularyzacja (comed jako forma przeszła come) Faza 3: Reguły + pamięć usuwanie błędów: współistnienie form regularnych i nieregularnych Tzn. tak mówili, zanim pojawił się wujek koneksjonizm i zaczął podgryzać

Nabywanie czasu przeszłego Tradycyjne modele wyjaśniające postulują reguły: w końcu regularnych jest 90% czasowników! Reguły przekształceń wyjaśniają tworzenie czasu przeszłego. Czy można to wyjaśnić inaczej?

Bez reguł! Rumelhart & McClelland (1986) pokazali, że rozproszone sieci przetwarzające równolegle to konkurencja dla symbolicznych systemów reguł; wyuczenie sieci odpowiada rozwojowi umiejętności u dzieci i wyjaśnia dynamikę nabywania końcówek. Fazy uczenia się odpowiadają fazom rozwojowym dzieci.

Co jest modelowane? Newell & Simon gromadzili raporty werbalne, Rumelhart & McClelland opierają się na prawidłowości statystycznej w populacji. Też postuluje się etapy przetwarzania tak samo jak w GPS-ie i jak u Marra.

Reprezentacja fonemów Reprezentacja wymowy samych czasowników (bez kontekstu!) zaproponowana przez W. Wickelgrena (1969) Fonemy jako wzorce strukturalne, tzw. Wickelfeatures: każdy fonem reprezentowany przez trójkę fonemów otaczających. Np. słowo cut /kat/ jest reprezentowane u Wickelgrena jako #ka, kat, at# Wickelfeatures to wejście i wyjście sieci Model stanowi idealizację

Wiele zachowań, jedna sieć Wejście: rdzeń czasownika Wyjście: czas przeszły czasownika Wagi określają zachowanie sieci złożonej z 460 jednostek. Nie ma tworzenia czasowników na podstawie reguł i na podstawie zapamiętanych wyjątków.

Szczegóły matematyczne (na życzenie niektórych dociekliwych studentów) Wejście do danego wyjścia sieci określa wzór: gdzie a to aktywacja j-tej jednostki, a wij to waga połączenia między jednostkami i i j. Każdy neuron ma próg dostosowywany podczas uczenia; prawdopodobieństwo aktywacji, regulowane tzw. temperaturą systemu T wynosi:

Wyniki Wysoka poprawność modelu (zgodność danych o dzieciach i wyjścia sieci): ponad 90% Jest transfer tworzenia na nowe formy, 92% poprawności dla regularnych, 84% dla nieregularnych Sieć przewiduje zachowanie dzieci w wieku przedszkolnym znane z badań (Bybee & Slobin 1982)

Wyniki Rozwój i uczenie są U-kształtne Występuje nadmierna generalizacja A potem błędy zanikają

Dowód możliwości Sieć nabywa czasu przeszłego bez reprezentowania reguł bezpośrednio: Istnieje pewna kombinacja wag połączeń, ale nie jest ona w tym sensie jawnie reprezentowaną regułą, że sama sieć nie musi jej interpretować (jak maszyna Turinga opis innej MT na taśmie). Ale Rumelhart i McClelland pokazują tylko, że wyuczenie sieci symulującej fazy zachowania jest możliwe (lub wystarczające) Nie ma świadectw empirycznych, że to robi układ nerwowy, nawet w przybliżeniu!

Krytyka Pinkera i Prince’a (1988) Błędne wyjaśnienie. Fonologia nie wystarcza! Np. homofony wring i ring mają zupełnie różne nieregularne formy czasu przeszłego (wrung i rang). Ta sieć się tego nie nauczy. Sieć gubi strukturalne własności ciągów fonemów (traktuje je jak nieuporządkowane zbiory, worki!)

Rozwój badań W kolejnych modelach odrzucono Wickelfeatures. Wprowadzono warstwę ukrytą. Sam Pinker zaproponował teorię hybrydową „wyrazy i reguły”: reguły – czasowniki regularne; sieć neuronowa – pamięć nieregularnych. Ale nie istnieje pełen komputerowy model.

Problem z frekwencją Rumelhart i McClelland badali prawidłowości statystyczne: ich model korzystał z listy frekwencyjnej czasowników. Najpierw podawano czasowniki najczęstsze, potem rzadsze. I takie etapy uczenia mogły stwarzać wrażenie podobieństwa do dzieci. Ale dzieci słyszą rzadsze czasowniki od razu! Tylko rzadziej...

Nabywanie czasu przeszłego Metodologia: Analiza zdolności, w tym możliwych reprezentacji wejścia i wyjścia (Wickelfeatures) Gromadzenie danych o zachowaniu (wcześniejsze badania) Zbudowanie i wytrenowanie sieci za pomocą informacji wejściowych i wyjściowych Przetestowanie na danych behawioralnych

Pojedynczy badany kontra populacja Wyjście sieci uśrednia wyniki w populacji. Żadne konkretne dziecko może tak nie mówić. Niebezpieczeństwo, że u różnych badanych występują różne mechanizmy psychologiczne! To niebezpieczeństwo jest nawet w modelach neurologicznych, bo mózgi się różnią Newell i Simon badali pojedynczych ludzi. Bezpieczny konserwatyzm.

Symbole i sieci Newell & Simon Rumelhart & McClelland Analiza zadania, w tym możliwych reprezentacji rozwiązywanego zadania Zgromadzenie danych o zachowaniu Zbudowanie reguł produkcji (reguły przepisywania symboli) do szukania rozwiązania Test na danych Analiza zadania, w tym reprezentacji wejścia i wyjścia (Wickelfeatures) Zgromadzenie danych o zachowaniu Zbudowanie i wytrenowanie sieci za pomocą informacji WE i WY Test na danych

Kompetencja i wykonanie (Chomsky) Kompetencja językowa: znajomość języka Wykonanie językowe: zachowanie użytkowników języka U Chomsky’ego kompetencja jest (prawie) bezbłędna. Badanie wykonania jest nieinteresujące. Koneksjoniści badają zmiany kompetencji.

Swoistość koneksjonizmu Zrealizowanie całej sieci w komputerze pozwala badać bardzo złożone zjawiska, których nie sposób sobie wyobrazić. Modele werbalne (np. Pinkera „wyrazy i reguły”) nie mają tej zalety. Koneksjoniści często modyfikują sieci i badają ich własności.

Niebezpieczeństwo koneksjonizmu Bardzo złożone sieci neuronowe są trudne do zrozumienia. Paradoks Boniniego: zjawisko wyjaśniane może być równie trudne do pojęcia, jak jego wyjaśnienie. Wypracowano metody badania struktury sieci neuronowych, aby sobie z tym poradzić. Analiza sieci po treningu...

Koneksjonizm: mity i rzeczywistość Sztuczne sieci neuropodobne są bliższe mózgowi niż maszyna Turinga. Ale i tak są boleśnie uproszczone. Większość symulowana jest na komputerach cyfrowych, ale powstają też neuromorficzne układy scalone. Sieci łagodnie obniżają poziom działania, a maszyna Turinga po prostu nie może działać po uszkodzeniu reguły. Systemy klasyczne też to potrafią, ale muszą mieć odpowiednią strukturę.

Koneksjonizm: mity i rzeczywistość Sieci neuronowe działają w czasie rzeczywistym, a maszyna Turinga – w dyskretnym czasie kroków obliczania. W rzeczywistości sieci neuronowe stosują ograniczenie „100 kroków na sekundę”, bo koneksjoniści zakładają, że mózg nie może wykonać więcej operacji. Innymi słowy, w modelu nie może zajść więcej niż 100 operacji na sekundę (to mniej więcej odpowiada pomiarom potencjałów czynnościowych). Mocno kontrowersyjne założenie. Do czasu rzeczywistego stąd daleko...

Koneksjonizm: mity i rzeczywistość Sieci świetnie rozpoznają wzorce i generalizują. W istocie to potrafi wiele innych algorytmów uczenia maszynowego. Ale często szybciej (np. Support Vector Machines, SVM).

W następnym odcinku Układy dynamiczne i raczkujące dzieci

O czym była mowa Neurony jako elementy obliczeniowe Perceptron i problemy koneksjonizmu Renesans koneksjonizmu Rumelhart i McClelland o uczeniu się czasowników