Sekwencje Jak modelować relacje i sekwencje słów? Inteligentne Systemy Autonomiczne Sekwencje Jak modelować relacje i sekwencje słów? W oparciu o wykład Prof. Geoffrey Hinton University of Toronto oraz Prof. Włodzisława Ducha Uniwersytet Mikołaja Kopernika Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie
Jak przedstawiać wagi połączeń Oczywisty sposób to zaznaczyć wartości numeryczne połączeń: Spróbuj pokazać 25,000 wag w ten sposób! Lepiej pokazać wagi jako białe i czarne kwadraty na wejściach neuronów warstw ukrytych Lepsze wykorzystanie pikseli Łatwiej rozpoznać kształty ukryty 1 2 +0.8 +3.2 -1.5 wejście ukryty 1 ukryty 2
Przykład relacji Christopher = Penelope Andrew = Christine Margaret = Arthur Victoria = James Jennifer = Charles Colin Charlotte Utwórz zbiór stwierdzeń używając 16 relacji: Syn, córka, siostrzeniec, siostrzenica, bratanek, bratanica Ojciec, matka, wujek, ciotka, stryjek, stryjenka Brat, siostra, maz, zona
Inny sposób przedstawienia tej informacji Christopher = Penelope Andrew = Christine Margaret = Arthur Victoria = James Jennifer = Charles Colin Charlotte Możemy te relacje przedstawić w postaci ciągów uporządkowanych czwórek (ojcem colina jest james) (matka colina jest victoria) (zona jamesa jest victoria) wynika z dwóch poprzednich (bratem charlotte jest colin) (bratem victorii jest arthur) (wujkiem charlotte jest arthur) wynika z dwóch poprzednich
Struktura sieci neuronowej Lokalny kod osoby 2 wyjście Nauczony rozproszony kod osoby 1 Jednostki które uczą się cech wyjścia na podstawie cech wejścia Nauczony rozproszony kod osoby 1 Nauczony rozproszony kod relacji Lokalny kod osoby 1 Lokalny kod relacji wejścia
Podstawowy problem w rozpoznawaniu mowy Nie możemy rozpoznać zgłosek w zaszumionej mowie Wejście akustyczne jest często wieloznaczne: kilka rożnych slow całkiem dobrze pasuje do jednego sygnału akustycznego. Ludzie wykorzystują rozumienie znaczenia wyrażenia żeby słyszeć właściwe słowo. Robimy to podświadomie Robimy to dobrze Oznacza to ze programy rozpoznawania mowy muszą wiedzieć które słowa najprawdopodobniej padną a które nie. Czy można to robić bez pełnego zrozumienia?
Standartowa metoda “trójek” Weź olbrzymia ilość tekstu i policz częstość wszystkich trójek słów. Potem użyj te częstości żeby przewidzieć następne słowo w ciągu a b ! Do niedawna metoda ta była “state-of-the-art”. Nie możemy użyć większego kontekstu ponieważ jest zbyt wiele czwórek Musimy cofnąć się do dwójek jeśli ilość trójek jest zero.
Dlaczego model trójek jest durny? Przypuśćmy że widzieliśmy zdanie “kot został zgnieciony w ogrodzie w piątek” Powinno to nam pomóc przewidzieć słowa w zdaniu “pies został rozpłaszczony na podwórku w poniedziałek” Model trójek nie rozumie podobieństwa między Kot/pies zgnieciony/rozpłaszczony ogród/podwórko piątek/poniedziałek Żeby przezwyciężyć to ograniczenie, potrzebujemy użyć cech poprzednich słów żeby przewidzieć cechy następnych słów. Używając reprezentacje cech i wyuczony model jak poprzednie cechy przewidują przyszłe, możemy użyć dużo słów i zależności wyuczonych w przeszłości.
Siec neuronowa Bengio do przewidywania następnych slow jednostki Softmax (jedna na każde słowo) wyjście Opuszczone polaczenia warstw Jednostki które uczą się przewidywać słowa wyjściowe na podstawie cech słów wejściowych Wyuczony rozproszony kod słowa t-2 Wyuczony rozproszony kod słowa t-1 Look-up table Look-up table wejścia Index słowa dla t-2 Index słowa dla t-1
Uczenie sekwencji w jednostkach LTM Podstawowa jednostka Long Term Memory (LTM)
LTM z naciskiem na pierwsza i ostatnia zgłoskę Używa zmodyfikowanych wag połączeń sprzężenia zwrotnego Większa tolerancja na częściowe przestawienia
LTM z naciskiem na pierwsza i ostatnia zgłoskę Typoglycemia - Wystarczy ze wyraz zawiera konieczne litery a pierwsza i ostatnia litera są na swoich miejscach, czytelnik z niewielkim wysiłkiem może przeczytać tekst. Śrewinoideczni walynaczy csętzo buwadoli maynszy pobndoe jak "rboot Leonarda", wynokujcąe okrelośne czonnyści, tikae jak zymanakie i oratwienie dwrzi, winatie wdząchocych gśoci itp. Udząrzenia tikae bawoduno do zawabainia wdcałów. Piommo iż nie zanno wdety elecznoktryści, zduwabono welie medloi poszuranych ergneią wdoy, słią cężiśokci czy engerią zmazygwaanoną w spęryżnach.
Powstawanie trwałej pamięci 1. Obserwacja wejścia 2. Aktywizacja sygnałów hipokampa 3. Aktywizacja pamięci średnioterminowej 4. Powstanie pamięci trwalej
Model amnezji Aktywizacja sygnałów hipokampa Aktywizacja sygnałów kory Układ neuromodulacji reguluje plastyczność hipokampa i kory. Pamięć średnioterminowa zapisana jest w sieciach hipokampa. Pamięć trwała jest rezultatem stanów atraktorowych minikolumn kory mózgu, zapisana jest więc w synapsach.
Amnezja wsteczna Główna przyczyna: utrata łączy do kory. Objawy: gradienty Ribota czyli im starsze wspomnienia tym lepiej pamiętane.
Amnezja następcza Główna przyczyna: uszkodzenie systemu neuromodulacji. Wtórnie: utrata łączy z korą. Objawy: Brak możliwości zapamiętania nowych faktów.
Amnezja semantyczna 1. Dużo mniej połączeń asocjacyjnych w korze 2. Aktywizacja sygnałów hipokampa 3. Uczenie poważnie utrudnione 4. Nie powtarzanie powoduje utratę pamięci Główna przyczyna: uszkodzenie łączy wewnątrzkorowych. Objawy: Trudności w znajdowaniu słów, rozumieniu, zapamiętanie nowych faktów, wymaga ciągłego powtarzania.