Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Marcin Miłkowski. O czym będzie mowa Neurony jako elementy obliczeniowe Perceptron i problemy koneksjonizmu Renesans koneksjonizmu Rumelhart i McClelland.

Podobne prezentacje


Prezentacja na temat: "Marcin Miłkowski. O czym będzie mowa Neurony jako elementy obliczeniowe Perceptron i problemy koneksjonizmu Renesans koneksjonizmu Rumelhart i McClelland."— Zapis prezentacji:

1 Marcin Miłkowski

2 O czym będzie mowa Neurony jako elementy obliczeniowe Perceptron i problemy koneksjonizmu Renesans koneksjonizmu Rumelhart i McClelland o uczeniu się czasowników

3 McCulloch i Pitts (1943) Pierwszy model mózgu jako sieci neuronów. Neurony to elementy cyfrowe. Albo przewodzą prąd, albo nie. Neurony jako bramki logiczne: odpowiednio połączone są równie silne jak maszyna Turinga.

4 Perceptron F. Rosenblatt (1957): uczące się sieci neuronowe – perceptrony. Przez modyfikację połączeń między neuronami można zmienić działanie sieci. Wystarczy dopasować wagę połączeń tak, aby wejściu odpowiadało odpowiednie wyjście. Wtedy perceptron rozpoznaje wzorce.

5 Perceptron jako klasyfikator Wiele wejść (X1... X7) Wiele wag (W1... W7) Jedno wyjście (y), binarne Perceptron daje odpowiedź tak lub nie. Klasyfikacja = rozpoznawanie wzorca

6 Mark I Perceptron Wczesne perceptrony były częściowo mechaniczne (potencjometry i silniczki!) Wielki entuzjazm

7 Minsky i Papert (1969): koniec wczesnego koneksjonizmu Perceptrony nie nauczą się nawet prostych funkcji takich jak alternatywa rozłączna (XOR)!

8 Sieci wielowarstwowe Sieci z wieloma warstwami neuronów mogą zrealizować każdą obliczalną funkcję matematyczną. W 1969 roku nie był znany algorytm ich uczenia, a algorytm perceptronu nie wystarczał. Lata 80: algorytm propagacji wstecznej. Renesans koneksjonizmu!

9 Koneksjonizm klasyczny Sztuczne sieci neuronowe symulują procesy poznawcze. W latach 1980 były bardzo uproszczone. Zwykle trzy warstwy

10 Koneksjonizm Sieci nerwowe przekształcają sygnał wejściowy na wyjściowy, a nie symbole. Przekształcenie zależy od wag połączeń. Uczenie sieci to ustawianie wag. Sieci pracują równolegle, a nie sekwencyjnie jak GPS. I nie ma w nich żadnych reguł!

11 Koneksjonizm klasyczny James McClelland (Stanford University) David E. Rumelhart ( )

12 Nabywanie czasu przeszłego w j. angielskim Końcówki czasu past simple Regularne (90%) talk => talked pit => pitted Nieregularne (10%) hit => hit get => got go => went Jak dzieci to opanowują?

13 Fazy rozwojowe: wizja tradycyjna Faza 1: Uczenie na pamięć początkowo bezbłędnie, ale mało czasowników Faza 2: Wydobywanie reguły nadmierna regularyzacja (comed jako forma przeszła come) Faza 3: Reguły + pamięć usuwanie błędów: współistnienie form regularnych i nieregularnych

14 Nabywanie czasu przeszłego Tradycyjne modele wyjaśniające postulują reguły: w końcu regularnych jest 90% czasowników! Reguły przekształceń wyjaśniają tworzenie czasu przeszłego. Czy można to wyjaśnić inaczej?

15 Bez reguł! Rumelhart & McClelland (1986) pokazali, że rozproszone sieci przetwarzające równolegle to konkurencja dla symbolicznych systemów reguł; wyuczenie sieci odpowiada rozwojowi umiejętności u dzieci i wyjaśnia dynamikę nabywania końcówek. Fazy uczenia się odpowiadają fazom rozwojowym dzieci.

16 Co jest modelowane? Newell & Simon gromadzili raporty werbalne, Rumelhart & McClelland opierają się na prawidłowości statystycznej w populacji. Też postuluje się etapy przetwarzania tak samo jak w GPS- ie i jak u Marra.

17 Reprezentacja fonemów Reprezentacja wymowy samych czasowników (bez kontekstu!) zaproponowana przez W. Wickelgrena (1969) Fonemy jako wzorce strukturalne, tzw. Wickelfeatures Wickelfeatures to wejście i wyjście sieci Model stanowi idealizację

18 Wiele zachowań, jedna sieć Wejście: rdzeń czasownika Wyjście: czas przeszły czasownika Wagi określają zachowanie sieci. Nie ma tworzenia czasowników na podstawie reguł i na podstawie zapamiętanych wyjątków. Wickelfeature Representation of Stem Wickelfeature Representation of Past Tense

19 Wyniki Wysoka poprawność modelu (zgodność danych o dzieciach i wyjścia sieci): ponad 90% Jest transfer tworzenia na nowe formy, 92% poprawności dla regularnych, 84% dla nieregularnych Sieć przewiduje zachowanie dzieci w wieku przedszkolnym znane z badań (Bybee & Slobin 1982)

20 Wyniki Rozwój i uczenie są U-kształtne Występuje nadmierna generalizacja A potem błędy zanikają

21 Dowód możliwości Sieć nabywa czasu przeszłego bez reprezentowania reguł Ale Rumelhart i McClelland pokazują tylko, że wyuczenie sieci symulującej fazy zachowania jest możliwe (lub wystarczające) Nie ma świadectw empirycznych, że to robi układ nerwowy, nawet w przybliżeniu!

22 Krytyka Pinkera i Princea (1988) Błędne wyjaśnienie. Fonologia nie wystarcza! Np. homofony wring i ring mają zupełnie różne nieregularne formy czasu przeszłego (wrung i rang). Ta sieć się tego nie nauczy. Sieć gubi strukturalne własności ciągów fonemów (traktuje je jak nieuporządkowane zbiory, worki!)

23 Rozwój badań W kolejnych modelach odrzucono Wickelfeatures. Wprowadzono warstwę ukrytą. Sam Pinker zaproponował teorię hybrydową wyrazy i reguły: reguły – czasowniki regularne; sieć neuronowa – pamięć nieregularnych. Ale nie istnieje pełen komputerowy model.

24 Problem z frekwencją Rumelhart i McClelland badali prawidłowości statystyczne: ich model korzystał z listy frekwencyjnej czasowników. Najpierw podawano czasowniki najczęstsze, potem rzadsze. I takie etapy uczenia mogły stwarzać wrażenie podobieństwa do dzieci. Ale dzieci słyszą rzadsze czasowniki od razu! Tylko rzadziej...

25 Nabywanie czasu przeszłego Metodologia: Analiza zdolności, w tym możliwych reprezentacji wejścia i wyjścia (Wickelfeatures) Gromadzenie danych o zachowaniu (wcześniejsze badania) Zbudowanie i wytrenowanie sieci za pomocą informacji wejściowych i wyjściowych Przetestowanie na danych behawioralnych

26 Pojedynczy badany kontra populacja Wyjście sieci uśrednia wyniki w populacji. Żadne konkretne dziecko może tak nie mówić. Niebezpieczeństwo, że u różnych badanych występują różne mechanizmy psychologiczne! To niebezpieczeństwo jest nawet w modelach neurologicznych, bo mózgi się różnią Newell i Simon badali pojedynczych ludzi. Bezpieczny konserwatyzm.

27 Symbole i sieci Newell & SimonRumelhart & McClelland 1. Analiza zadania, w tym możliwych reprezentacji rozwiązywanego zadania 2. Zgromadzenie danych o zachowaniu 3. Zbudowanie reguł produkcji (reguły przepisywania symboli) do szukania rozwiązania 4. Test na danych 1. Analiza zadania, w tym reprezentacji wejścia i wyjścia (Wickelfeatures) 2. Zgromadzenie danych o zachowaniu 3. Zbudowanie i wytrenowanie sieci za pomocą informacji WE i WY 4. Test na danych

28 Kompetencja i wykonanie (Chomsky) Kompetencja językowa: znajomość języka Wykonanie językowe: zachowanie użytkowników języka U Chomskyego kompetencja jest (prawie) bezbłędna. Badanie wykonania jest nieinteresujące. Koneksjoniści badają zmiany kompetencji.

29 Swoistość koneksjonizmu Zrealizowanie całej sieci w komputerze pozwala badać bardzo złożone zjawiska, których nie sposób sobie wyobrazić. Modele werbalne (np. Pinkera wyrazy i reguły) nie mają tej zalety. Koneksjoniści często modyfikują sieci i badają ich własności.

30 Niebezpieczeństwo koneksjonizmu Bardzo złożone sieci neuronowe są trudne do zrozumienia. Paradoks Boniniego: zjawisko wyjaśniane może być równie trudne do pojęcia, jak jego wyjaśnienie. Wypracowano metody badania struktury sieci neuronowych, aby sobie z tym poradzić. Analiza sieci po treningu...

31 Koneksjonizm: mity i rzeczywistość Sztuczne sieci neuropodobne są bliższe mózgowi niż maszyna Turinga. Ale i tak są boleśnie uproszczone. Sieci łagodnie obniżają poziom działania, a maszyna Turinga po prostu nie może działać po uszkodzeniu reguły. Systemy klasyczne też to potrafią, ale muszą mieć odpowiednią strukturę.

32 Koneksjonizm: mity i rzeczywistość Sieci neuronowe działają w czasie rzeczywistym, a maszyna Turinga – w dyskretnym czasie kroków obliczania. W rzeczywistości sieci neuronowe stosują ograniczenie 100 kroków na sekundę, bo koneksjoniści zakładają, że mózg nie może wykonać więcej operacji. Mocno kontrowersyjne założenie. Do czasu rzeczywistego stąd daleko...

33 Koneksjonizm: mity i rzeczywistość Sieci świetnie rozpoznają wzorce i generalizują. W istocie to potrafi wiele innych algorytmów uczenia maszynowego. Ale szybciej (np. Support Vector Machines, SVM).

34 W następnym odcinku Układy dynamiczne i raczkujące dzieci


Pobierz ppt "Marcin Miłkowski. O czym będzie mowa Neurony jako elementy obliczeniowe Perceptron i problemy koneksjonizmu Renesans koneksjonizmu Rumelhart i McClelland."

Podobne prezentacje


Reklamy Google