Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałMiłosz Sroga Został zmieniony 10 lat temu
1
Wstęp do kognitywistyki OBLICZENIA NEUROPODOBNE. Bez reguł
Marcin Miłkowski Wstęp do kognitywistyki OBLICZENIA NEUROPODOBNE. Bez reguł
2
O czym będzie mowa Neurony jako elementy obliczeniowe
Perceptron i problemy koneksjonizmu Renesans koneksjonizmu Rumelhart i McClelland o uczeniu się czasowników
3
McCulloch i Pitts (1943) Pierwszy model mózgu jako sieci neuronów.
Neurony to elementy cyfrowe. Albo przewodzą prąd, albo nie. Neurony jako bramki logiczne: odpowiednio połączone są równie silne jak maszyna Turinga.
4
Perceptron F. Rosenblatt (1957): uczące się sieci neuronowe – perceptrony. Przez modyfikację połączeń między neuronami można zmienić działanie sieci. Wystarczy dopasować wagę połączeń tak, aby wejściu odpowiadało odpowiednie wyjście. Wtedy perceptron rozpoznaje wzorce.
5
Perceptron jako klasyfikator
Wiele wejść (X1... X7) Wiele wag (W1... W7) Jedno wyjście (y), binarne Perceptron daje odpowiedź „tak” lub „nie”. Klasyfikacja = rozpoznawanie wzorca
6
Mark I Perceptron Wczesne perceptrony były częściowo mechaniczne (potencjometry i silniczki!) Wielki entuzjazm
7
Minsky i Papert (1969): koniec wczesnego koneksjonizmu
Perceptrony nie nauczą się nawet prostych funkcji takich jak alternatywa rozłączna (XOR)! Minsky to szkolny kolega Rosenblatta!
8
Sieci wielowarstwowe Sieci z wieloma warstwami neuronów mogą zrealizować każdą obliczalną funkcję matematyczną. W 1969 roku nie był znany algorytm ich uczenia, a algorytm perceptronu nie wystarczał. Lata 80: algorytm propagacji wstecznej. Renesans koneksjonizmu!
9
Koneksjonizm klasyczny
Sztuczne sieci neuronowe symulują procesy poznawcze. W latach były bardzo uproszczone. Zwykle trzy warstwy
10
Koneksjonizm Sieci nerwowe przekształcają sygnał wejściowy na wyjściowy, a nie symbole. Przekształcenie zależy od wag połączeń. Uczenie sieci to ustawianie wag. Sieci pracują równolegle, a nie sekwencyjnie jak GPS. I nie ma w nich żadnych reguł!
11
Koneksjonizm klasyczny
James McClelland (Stanford University) David E. Rumelhart ( ) McClelland żyje i miewa się całkiem dobrze.
12
Nabywanie czasu przeszłego w j. angielskim
Końcówki czasu past simple Regularne (90%) talk => talked pit => pitted Nieregularne (10%) hit => hit get => got go => went Jak dzieci to opanowują?
13
Fazy rozwojowe: wizja tradycyjna
Faza 1: Uczenie na pamięć początkowo bezbłędnie, ale mało czasowników Faza 2: Wydobywanie reguły nadmierna regularyzacja (comed jako forma przeszła come) Faza 3: Reguły + pamięć usuwanie błędów: współistnienie form regularnych i nieregularnych Tzn. tak mówili, zanim pojawił się wujek koneksjonizm i zaczął podgryzać
14
Nabywanie czasu przeszłego
Tradycyjne modele wyjaśniające postulują reguły: w końcu regularnych jest 90% czasowników! Reguły przekształceń wyjaśniają tworzenie czasu przeszłego. Czy można to wyjaśnić inaczej?
15
Bez reguł! Rumelhart & McClelland (1986) pokazali, że
rozproszone sieci przetwarzające równolegle to konkurencja dla symbolicznych systemów reguł; wyuczenie sieci odpowiada rozwojowi umiejętności u dzieci i wyjaśnia dynamikę nabywania końcówek. Fazy uczenia się odpowiadają fazom rozwojowym dzieci.
16
Co jest modelowane? Newell & Simon gromadzili raporty werbalne, Rumelhart & McClelland opierają się na prawidłowości statystycznej w populacji. Też postuluje się etapy przetwarzania tak samo jak w GPS- ie i jak u Marra.
17
Reprezentacja fonemów
Reprezentacja wymowy samych czasowników (bez kontekstu!) zaproponowana przez W. Wickelgrena (1969) Fonemy jako wzorce strukturalne, tzw. Wickelfeatures Wickelfeatures to wejście i wyjście sieci Model stanowi idealizację
18
Wiele zachowań, jedna sieć
Wickelfeature Representation of Stem Wickelfeature Representation of Past Tense Wejście: rdzeń czasownika Wyjście: czas przeszły czasownika Wagi określają zachowanie sieci. Nie ma tworzenia czasowników na podstawie reguł i na podstawie zapamiętanych wyjątków.
19
Wyniki Wysoka poprawność modelu (zgodność danych o dzieciach i wyjścia sieci): ponad 90% Jest transfer tworzenia na nowe formy, 92% poprawności dla regularnych, 84% dla nieregularnych Sieć przewiduje zachowanie dzieci w wieku przedszkolnym znane z badań (Bybee & Slobin 1982)
20
Wyniki Rozwój i uczenie są U-kształtne
Występuje nadmierna generalizacja A potem błędy zanikają
21
Dowód możliwości Sieć nabywa czasu przeszłego bez reprezentowania reguł Ale Rumelhart i McClelland pokazują tylko, że wyuczenie sieci symulującej fazy zachowania jest możliwe (lub wystarczające) Nie ma świadectw empirycznych, że to robi układ nerwowy, nawet w przybliżeniu!
22
Krytyka Pinkera i Prince’a (1988)
Błędne wyjaśnienie. Fonologia nie wystarcza! Np. homofony wring i ring mają zupełnie różne nieregularne formy czasu przeszłego (wrung i rang). Ta sieć się tego nie nauczy. Sieć gubi strukturalne własności ciągów fonemów (traktuje je jak nieuporządkowane zbiory, worki!)
23
Rozwój badań W kolejnych modelach odrzucono Wickelfeatures.
Wprowadzono warstwę ukrytą. Sam Pinker zaproponował teorię hybrydową „wyrazy i reguły”: reguły – czasowniki regularne; sieć neuronowa – pamięć nieregularnych. Ale nie istnieje pełen komputerowy model.
24
Problem z frekwencją Rumelhart i McClelland badali prawidłowości statystyczne: ich model korzystał z listy frekwencyjnej czasowników. Najpierw podawano czasowniki najczęstsze, potem rzadsze. I takie etapy uczenia mogły stwarzać wrażenie podobieństwa do dzieci. Ale dzieci słyszą rzadsze czasowniki od razu! Tylko rzadziej...
25
Nabywanie czasu przeszłego
Metodologia: Analiza zdolności, w tym możliwych reprezentacji wejścia i wyjścia (Wickelfeatures) Gromadzenie danych o zachowaniu (wcześniejsze badania) Zbudowanie i wytrenowanie sieci za pomocą informacji wejściowych i wyjściowych Przetestowanie na danych behawioralnych
26
Pojedynczy badany kontra populacja
Wyjście sieci uśrednia wyniki w populacji. Żadne konkretne dziecko może tak nie mówić. Niebezpieczeństwo, że u różnych badanych występują różne mechanizmy psychologiczne! To niebezpieczeństwo jest nawet w modelach neurologicznych, bo mózgi się różnią Newell i Simon badali pojedynczych ludzi. Bezpieczny konserwatyzm.
27
Symbole i sieci Newell & Simon Rumelhart & McClelland
Analiza zadania, w tym możliwych reprezentacji rozwiązywanego zadania Zgromadzenie danych o zachowaniu Zbudowanie reguł produkcji (reguły przepisywania symboli) do szukania rozwiązania Test na danych Analiza zadania, w tym reprezentacji wejścia i wyjścia (Wickelfeatures) Zgromadzenie danych o zachowaniu Zbudowanie i wytrenowanie sieci za pomocą informacji WE i WY Test na danych
28
Kompetencja i wykonanie (Chomsky)
Kompetencja językowa: znajomość języka Wykonanie językowe: zachowanie użytkowników języka U Chomsky’ego kompetencja jest (prawie) bezbłędna. Badanie wykonania jest nieinteresujące. Koneksjoniści badają zmiany kompetencji.
29
Swoistość koneksjonizmu
Zrealizowanie całej sieci w komputerze pozwala badać bardzo złożone zjawiska, których nie sposób sobie wyobrazić. Modele werbalne (np. Pinkera „wyrazy i reguły”) nie mają tej zalety. Koneksjoniści często modyfikują sieci i badają ich własności.
30
Niebezpieczeństwo koneksjonizmu
Bardzo złożone sieci neuronowe są trudne do zrozumienia. Paradoks Boniniego: zjawisko wyjaśniane może być równie trudne do pojęcia, jak jego wyjaśnienie. Wypracowano metody badania struktury sieci neuronowych, aby sobie z tym poradzić. Analiza sieci po treningu...
31
Koneksjonizm: mity i rzeczywistość
Sztuczne sieci neuropodobne są bliższe mózgowi niż maszyna Turinga. Ale i tak są boleśnie uproszczone. Sieci łagodnie obniżają poziom działania, a maszyna Turinga po prostu nie może działać po uszkodzeniu reguły. Systemy klasyczne też to potrafią, ale muszą mieć odpowiednią strukturę.
32
Koneksjonizm: mity i rzeczywistość
Sieci neuronowe działają w czasie rzeczywistym, a maszyna Turinga – w dyskretnym czasie kroków obliczania. W rzeczywistości sieci neuronowe stosują ograniczenie „100 kroków na sekundę”, bo koneksjoniści zakładają, że mózg nie może wykonać więcej operacji. Mocno kontrowersyjne założenie. Do czasu rzeczywistego stąd daleko...
33
Koneksjonizm: mity i rzeczywistość
Sieci świetnie rozpoznają wzorce i generalizują. W istocie to potrafi wiele innych algorytmów uczenia maszynowego. Ale szybciej (np. Support Vector Machines, SVM).
34
W następnym odcinku Układy dynamiczne i raczkujące dzieci
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.