Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

EE141 1 Percepcja i uwaga Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie Inteligentne Systemy Autonomiczne W oparciu o wykład Prof.

Podobne prezentacje


Prezentacja na temat: "EE141 1 Percepcja i uwaga Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie Inteligentne Systemy Autonomiczne W oparciu o wykład Prof."— Zapis prezentacji:

1 EE141 1 Percepcja i uwaga Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie Inteligentne Systemy Autonomiczne W oparciu o wykład Prof. Randall O'ReillyRandall O'Reilly University of Colorado oraz Prof. Włodzisława Ducha Uniwersytet Mikołaja Kopernika

2 EE141 2 Problem Rozpoznawania Obrazów W jaki sposób tworzą się pola recepcyjne? Dlaczego kora mózgowa koduje zorientowane paski światła? Uczenie poprzez korelacje w oparciu o naturalne sceny Jak rozpoznajemy obiekty? W rożnych lokalizacjach, rozmiarach, obrotach, i obrazach na siatkówce Dlaczego system wizyjny rozdziela się na strumienie gdzie/co? Niezmienniczość przestrzenna (spatial invariance) jest trudna, bo różne znaki zajmują częściowo te same pola recepcyjne, a te same znaki w różnych miejscach siatkówki obrócone lub innej wielkości wcale się nie pokrywają.

3 EE141 3 Rozpoznawanie Skąd niezmienniczość? Szkic 3D na podstawie rzutów 2D, pamiętana jest tylko jedna reprezentacja 3D (Marr 1982). Podejście syntaktyczne: składaj całość z kawałków modelu. Wariant (Hinton 1981): szukaj transformacji (przesunięcia, skalowania, obrotu), dopasuj do kanonicznej reprezentacji w pamięci. Problem: wiele obiektów 2D może dać różne obiekty 3D; trudno jest dopasować obiekty bo przestrzeń szukania fragmentów i łączenia ich w całość jest zbyt wielka – czy naprawdę pamiętamy obiekty 3D?

4 EE141 4 Stopniowe transformacje W mózgu niezmienniczość względem obrotów jest mocno ograniczona – np. rozpoznawanie obróconych twarzy. Ograniczoną niezmienniczość rozpoznawania obiektów można uzyskać dzięki stopniowym hierarchicznym równoległym transformacjom, zwiększającym niezmienniczość i tworzącym coraz bardziej złożone cechy rozproszonych reprezentacji. Cel: nie 3D, ale zachować wystarczająco dużo szczegółów by dało się rozpoznać obiekty w niezmienniczy sposób po transformacjach. Map seeking circuits in visual cognition (D. W. Arathorn, 2002 )Map seeking circuits in visual cognition (D. W. Arathorn, 2002 )

5 EE141 5 Model rozpoznawania Model objecrec.proj, wiele hiperkolumn, ale bardzo prostych. Uwzględniamy obszary i transformacje między LGN, V1, V2 i V4/IT. 20 wzorców, ale tylko pionowe/poziome elementy. Kombinacje elementów na poziomie IT mają reagować niezmienniczo. Output = reprezentacja na poziomie symbolicznym. Obiekty do rozpoznawania, 3 z 6 możliwych segmentów. Trening na 0-17, test na rozmiary, 5, 7, 9 i 11 pikseli.

6 EE141 6 Własności modelu rozpoznawania Hiperkolumna: te same sygnały, przesunięte i częściowo się pokrywające. Elementy wewnątrz hiperkolumny konkurują, kWTA, elementy w warstwie również konkurują – hamowanie na większym obszarze. Całkowite hamowanie = max (lokalnego, z całej warstwy). Hiperkolumny dokują ekstrakcji cech w całym polu widzenia => wystarczą te same wagi (weight sharing) dla każdej hiperkolumny. Obiekty reprezentowane są za pomocą krawędzi w warstwie LGN On/Off, każda 16x16, zawinięte brzegi (geometria sferyczna). V1: ma już wyuczone reprezentacje krawędzi pionowych i poziomych, pola recepcyjne 4x4 w LGN, jest 8 pionowych i poziomych krawędzi dla on i 8 dla off, razem 16 = 4x4 jednostki. V2: hiperkolumny 8x8, sygnały z ¼ pola widzenia, w matrycy 4x4. V4/IT: 10x10, całe pole wzrokowe, dla tak prostych obiektów wystarczy.

7 EE141 7 Więcej własności Symulacje bez wspólnych wag dla hiperkolumn dają te same rezultaty, chociaż są znacznie bardziej kosztowne; Hebbowski mechanizm prowadzi do jednakowych wag dla kolumny o tych samych (x i,y i ). Bez Hebba sama korekcja błędów daje całkiem różne reprezentacje dla hiperkolumn, bo nie wykrywa korelacji wejść. Brak połączeń horyzontalnych – rep. V1 jest już ustalona, więc nie są konieczne a zwalniają uczenie; te połączenia są ważne w procesach wypełniania, iluzjach, rozpoznawaniu przysłoniętych obiektów. Parametry: Hebb =0.005, ale pomiędzy V1/V2 jest tylko bo współdzielenie wag daje częstsze pobudzenia = wiec zmiana. Uczenie: szybkość 0.01 => po 150 epokach by stabilizować uczenie i przyspieszyć początkowe. Budowa sieci: BuildNet, sprawdzić własności połączeń, r.wt.

8 EE141 8 Eksploracja sieci StepTrain, faza – i StepTrain, faza + Całość trenowania wymaga wielu godzin; jeden obiekt może być w 4 rozmiarach i 256 pozycjach w siatce 16x16, razem są 1024 obrazy jednego obiektu, 18 obiektów treningowych, wzorców. Wytrenowana sieć po 460 epokach x 150 obiektów na epokę, po prezentacji osiąga dobre wyniki, mniej niż 2 prezentacje/wzorzec. net_updt => cycle_updt pokaże uczenie dla całego cyklu, na wytrenowanej sieci fazy – i + są takie same. Jak koreluje się aktywność V2 i V4 z wejściami w LGN? Pola recepcyjne wynikające z uśrednionej aktywacji można obejrzeć patrząc na korelacje x z LGN, y z V2 lub V4, dla każdego elementu hiperkolumny 8x8 przedstawiamy wszystkie r i

9 EE141 9 Pola recepcyjne uśrednionej aktywacji Aktywność 16x16 LGN-on-center dla jednej hiperkolumny V2, 8x8 elementów; współdzielenie wag => inne tak samo. Elementy z lewego dolnego rogu V2, odbierające z ¼ całego pola LGN. Jasne paski = selektywna jednostka dla krawędzi (różnych rozmiarów) w określonym położeniu. Elementy V2 nie reagują na pojedyncze linie tylko na ich kombinacje. Rozmyte równoległe paski – reakcja na te same kombinacje w różnym położeniu.

10 EE Pola off V2 Aktywność LGN-off-center dla jednej hiperkolumny V2 współdzielenie wag => inne tak samo. Te elementy reagują bardziej na zakończenia krótszych linii. Elementy reagujące selektywnie biorą udział w reprezentacji wielu wzorców, wykrywają złożone cechy wspólne dla różnych obiektów.

11 EE Korelacje V2 – obiekty wyjściowe Reakcja jednostek V2 na wykrywanie poszczególnych obiektów, czyli korelacje V2 – uśrednione wyjście 4x5 = 20 obiektów.

12 EE Korelacje V4 – obiekty wyjściowe Reakcja jednostek V4 na wykrywanie poszczególnych obiektów, czyli korelacje V4 – uśrednione wyjście 4x5. Większa selektywność niż w V2, bo większa niezmienniczość i reakcja na bardziej złożone cechy.

13 EE Testy pól recepcyjnych Obserwacja reakcji V2 i V4: 4 próbki używane w testach, każda pokazana we wszystkich pozycjach lewego kwadrantu wejść LGN, czyli 8x8. Kolumny V2 reagują na ¼ całego pola. Obliczamy reakcje na poziomie V2/V4, kwadranty odpowiadają poszczególnym próbkom testowym; np. dla próbki 0 reakcje na wszystkie 8x8 pozycji tej próbki są w lewej dolnej ćwiartce dla danego elementu, cała jego aktywność dla 4 elementów jest w kwadracie 16x16.

14 EE Testy V2 dla próbek Hiperkolumna V2 ma 8x8 elementów, reakcje każdego na 4 próbki uśrednione po wszystkich pozycjach są w małych kwadratach 16x16.

15 EE Testy V4 dla próbek V4 ma 10x10 elementów, reakcje każdego na 4 próbki uśrednione po wszystkich pozycjach są w małych kwadratach 16x16. Niezależność od pozycji widać po całych żółtych kwadratach. Niektóre reagują na pojedyncze cechy próbki, inne na całą próbkę, a kilka na obecność elementów, które są w każdej próbce.

16 EE Testy statystyczne Tabela 8.1 podsumowuje wyniki testu prezentacji 20 obiektów we wszystkich pozycjach i reakcji (dla progu >0.5) elementów V4 na te prezentacje. Dla jednego obiektu w 256 możliwych pozycjach i 4 rozmiarach (1024 wzorce) na poziomie V4 jest średnio 10 różnych aktywacji. Szczegółowe wyniki są w objrec.swp_pre.err. Dwa nieznane obiekty 18, 19 dają same błędy. Trenowanie w celu określenia generalizacji: prezentacja nowego obiektu raz na 4 prezentacje; w 36 z 256 możliwych pozycji, rozmiary 5 lub 9 pikseli, więc 14% pozycji i 50% rozmiarów, 72 wzorce (7%). Po 60 epokach treningu, 150 obiektów/epokę, stała uczenia 0.001, obiekt 18 dał 85% poprawnych odpowiedzi na 1024 wzorce; obiekt 19 dał 66% poprawnych odpowiedzi, dla małych rozmiarów.

17 EE Szlak grzbietowy Rozpoznawanie to funkcja szlaku brzusznego, teraz pora na grzbietowy. Funkcje: wykrywanie ruchu, umiejscowienie, gdzie i jak działać, ale i na czym skupić uwagę i jak dzięki temu przerzucać uwagę z jednego obiektu na drugi obiekt. Uwaga pozwala powiązać różne własności obiektu w jedną całość, rozwiązać problem spójności wrażeń pomimo rozproszonego przetwarzania; rozproszona aktywacja => cech ze sobą powiązanych, odnoszących się do jednego obiektu. Głównie model uwagi, emergentnego procesu wynikającego ze struktury i dynamiki sieci neuronów, głównie hamowania. Efekty uwagi są powszechne, widoczne w różnych sytuacjach. Na co zwracać uwagę? Czy to dobrze postawione pytanie? Psy gryzą, a nie tylko Burek, nie tylko kundle, nie tylko czarne...

18 EE Model uwagi przestrzennej Interakcja reprezentacji przestrzennych z rozpoznawaniem obiektów. Jak szlak grzbietowy oddziałuje na szlak brzuszny? Różne reprezentacje przestrzenne w korze ciemieniowej, tutaj prosta mapa relacji przestrzennych. Eksperyment Posnera: uwaga kierowana jest na bodziec przygotowujący (cue), co wpływa na czasy reakcji na prosty bodziec docelowy, zależnie od tego czy pojawia się w tym samym czy w innym miejscu. Aktywacja w określonym miejscu => szybkość rozpoznania. No cue cue cue

19 EE Możliwa jest mediacja uwagi przez V1, ale wtedy hamowanie zapobiegnie przeniesieniu uwagi na inny obiekt. Oryginalny model Posnera: kora ciemieniowa uwalnia uwagę. Istnieje bezpośrednie sprzężenie (V4-V5?) pomiędzy szlakiem grzbietowym i brzusznym plus droga przez V1. Uwaga przestrzenna wpływa na rozpozna- wanie; grubsze linie = silniejszy wpływ. Uwaga Przestrzenna: model Wymuszane przez szlak grzbietowy (PC) Model OReilly

20 EE Lezje szlaku grzbietowego Lezje kory ciemieniowej wpływają silnie na mechanizmy uwagi i orientacji przestrzennej, rozległe lezje w jednej półkuli prowadzą do jednostronnego zaniedbania, niezdolności wyobrażenia (skupienia uwagi) na przeciwległej do lezji części przestrzeni. Dla niewielkich lezji jednostronnych widać wyraźne spowolnienie przeniesienia uwagi do miejsca po przeciwległej stronie. Dla rozległych przeniesienie uwagi nie jest możliwe. Lezje dwustronne prowadzą do zespołu Balinta, trudności w precyzyjnym kierowaniu ręką za pomocą wzroku, symultanagnozji; różnice pomiędzy czasami przeniesienia uwagi w eksperymencie Posnera są niewielkie. Posner twierdził, że to wynik przykucia uwagi, niezdolności do oderwania ale nie podał mechanizmu odrywania, następuje ono po skupieniu uwagi gdzie indziej – lepszy model zakłada zwykłą konkurencję.

21 EE Uwaga Przestrzenna: Jednostronne Zaniechanie Autoportret Pacjenci z uszkodzeniami rozpoznania przestrzenno- czasowego zapominają o polowie przestrzeni mimo ze ja widza

22 EE Uwaga Przestrzenna: Jednostronne Zaniechanie Zadanie przekreslania linii poziomych Kopiowanie rysunkow

23 EE Model uwagi attn_simple.proj ze strony Model attn_simple.proj ze strony Bodźce: pojedyncze aktywacje w jednym z 7 miejsc, dla dwóch obiektów (cue, target). 3 warstwy, niezmienniczość wzrasta, każdy element wyższej warstwy zwija 3 niższe, stąd V1 jest 2x7, Spat1, Obj1 2x5, Spat2, Obj2 jest 2x3, wyjście 2x1. Czas reakcji: czas potrzebny by aktywność wyjścia target połączonego z Obj2 doszła do 0.6 Spat2 reaguje tylko na położenie.

24 EE Eksploracja modelu r.wt pokaże połączenia. Panel kontrolny ma kilka parametrów skalujących: spat_obj = 2, skalowanie wag spat=>obj, obj_spat =0.5 (nie pokazane) v1_spat = 2, silniejsze niż v1_obj, niewielki szum noise_var = cue_dur = 200 liczba cykli w czasie której prezentowany jest bodziec przygotowujący, po nim następuje docelowy. 3 sytuacje dla Multi_objs: a) dwa różne obiekty, b) dwa jednakowe, c) dwa różne w tym samym miejscu. act, step przez wszystkie zdarzenia kilka razy View Graph_log i Run –rozpoznanie nakładających się elementów jest zwykle wolniejsze; view text_log; view batch_text_log, run batch.

25 EE Eksperyment Posnera env_type std_Posner view events: 0 tylko target, 1 cue po lewej, target po lewej, 2 cue po lewej, target po prawej. Aktywacja nie jest zerowana po prezentacji pierwszego bodźca, tylko po całej grupie. Display on, clear graph log, step. Batch powtórzy 10x, wykres => W jaki sposób sieć skraca czas po tej samej stronie? W jaki wydłuża po przeciwnej? Testuj spat_obj=1 i v1_spat=1.5, 1 Zmień na even_type Close_Posner i sprawdź efekty.

26 EE Prosty model testu Posnera Czasy rozpoznania objektow: normalizacja skaluje odpowiedz do średniego czasu dorosłych. CueValidInvalid Dorośli350 msek 390 msek 40 msek Starzy Pacjenci Starzy znorm Pacjenci znorm

27 EE Efekty lezji Pacjenci z lezjami nawet po normalizacji mają znacznie dłuższe czasy w teście Posnera, podczas gdy starsze osoby po normalizacji mają różnice takie jak normalni. Lezja w modelu: env_type Std_Posner, Lesion, lesion_lay = Spat1_2 by upośledzić obydwa poziomy, liczba miejsc (locations) = half, liczba elementów = half, czyli 1 z dwóch. liczba elementów = half, czyli 1. Sprawdź (r.wt), że wagi zostały wyzerowane: dwa elementy w prawym rogu Spat_1, i jeden z prawego górnego rogu Spat_2 Batch by zobaczyć wpływ.

28 EE Lezje odwrotnie Jeśli odwrócić zadanie i przerzucać uwagę ze strony w której jest lezja do przeciwległej. Ustawić env_type na Reverse_Posner: różnice znacznie mniejsze (inna skala). Czemu? Normalna strona łatwiej konkuruje z uszkodzoną, więc różnice się zmniejszają – zgodnie z obserwacjami dla pacjentów. Obustronne lezje: Std_Posner, Full dla lokacji, half dla l. jednostek, Batch Efekty wyraźny, ale słabszy niż jednostronnych lezji.

29 EE Lezja całkowita Jednostronne zaniedbanie przy rozległym uszkodzeniu. Symulacja: Multi_obj, half dla miejsc, full dla l. jednostek, Run Sieć ma tendencję do skupiania uwagi na nieuszkodzonej stronie, niezależnie od prezentacji, zaniedbując połowę przestrzeni. Pacjenci z jednostronnym zaniedbaniem nie są zdolni do wyobrażenia jednej strony przestrzeni tylko wtedy, gdy w drugiej jest jakiś bodziec na którym można skupić uwagę (zjawisko ekstynkcji). Podobnie zaniedbanie dla Std_Posner.

30 EE Efekty przerwy Jeśli po bodźcu przygotowawczym zrobimy przerwę rzędu 500 ms pojawia się zjawisko hamowania powrotu do tego bodźca, czasy się częściowo odwracają, zmiana położenia wywołuje szybszą reakcję! Można to symulować wydłużając długość prezentacji bodźca przygotowującego i uwzględniając zmęczenie neuronów (akomodacja). Defaults, No_lesion, enc_type = Std_Posner, accomodate Zmiana z 75 do 200 co 25 ms

31 EE Uwaga związana z obiektami Efekty uwagi związane z interakcją miejsca w przestrzeni i rozpoznawania obiektu będą podobne do efektów uwagi związanej z rozpoznawaniem konkurencyjnego obiektu (object-based attention). Env_type Obj_attn, View Events Zdarzenia: 2 obiekty bez wskazówek. Wskazówka w położeniu centralnym, dwa obiekty w okolicy centrum, sieć powinna skupić się na pierwszym. Ostatnie dwa: wskazówka i 2 obiekty w tym samym miejscu; żółty = większa aktywacja. Defaults, Step: początkowy obiekt wpływa na wybór nawet jeśli drugi obiekt jest bardziej aktywny.

32 EE Podsumowanie Efekty uwagi pojawiają się naturalnie w modelu jako wynik konkurencji przez hamowanie, wzajemnych połączeń, konieczności kompromisów. Podobne efekty widać w różnych mechanizmach korowych. Niektóre mechanizmy psychologiczne (zwalnianie uwagi) okazują się niepotrzebne. Efekty związane z uwagą dostarczają szczegółowych informacji pozwalających na dostrojenie modeli do wyników eksperymentów i użycie tych modeli do innych przewidywań; jest też sporo neurofizjologicznych danych dotyczących uwagi. Ograniczenia tego modelu: brak efektów związanych ze wzgórzem (praca Wager, OReilly), zbyt prosta reprezentacja obiektów (jedna cecha).

33 EE Złożony model rozpoznawania Model objectrec_multiobj.proj.gz, roz Model ma dodatkowe dwie warstwy Spat1 połączone z V1 i Spat2 połączone z V2. Spat1 ma pobudzenia wewnątrz warstwy, skupia się na obiekcie. Warstwa Target pokazuje, który wzorzec został wybrany i czy pasuje do wyjścia.

34 EE Dwa obiekty w różnych miejscach BuildNet, r.wt by sprawdzić połączenia, pola recepcyjne w V1. LoadNet, r.wt by sprawdzić po treningu. Spat_1 reaguje na pola w V1 o rozmiarach 8x8, zawijanie prawa na lewą Spat_2 na pola V2 16x16. Dwa obiekty (prostop. linie) z tą samą aktywacją w różnych miejscach. StepTest, obiekt nr. 12, prezentowany w lewym dolnym rogu. Początkowo oscylacje, ale stopniowa przewaga jednego z dwóch miejsc i znajdującego się tam obiektu; wpływ na niższe warstwy, w V1 pozostaje aktywacja tylko jednego. View Test_log; widać błędy w rozpoznawaniu, bo obiekty są małe, a jednoczesna aktywacja V1 wprowadza zamieszanie – brak mechanizmu sakad prowadzącego do kolejnego, a nie jednoczesnego pobudzania. Zmniejszenie fm_sapt1_scale z 1 do 0.01, simultanagnozja, nie da się rozpoznać dwóch obiektów, można tylko jeden!

35 EE Wpływ lokalizacji przestrzennej Aktywacja przestrzenna może co najwyżej modulować proces rozpoznawania, inaczej będziemy wiedzieli gdzie, ale nie co. Zapewnia to hamowanie i konkurencja, rozpoznawanie jest kombinacją aktywacji miejsca i wzmacnianych cech w niższych warstwach. Przełączanie obiektów: włączamy akomodację neuronów. Accomodate, InitStep, TestStep Po zmęczeniu neuronów pierwszym obiektem uwaga przesuwa się do drugiego, po warstwie Spat1. Często robione są błędy, nie jest to jeszcze dobry mechanizm kontrolny. Uwaga związana z obiektem też daje się w tym modelu zobaczyć. View, Test_Process_ctrl, environment z vis_sim_test => obj_attn_test (na dole ScriptEnv). Apply, Reinit, Step. Sieć rozpoznaje obiekt 17; Step sieć rozpoznaje 12 i 17, zostaje przy 17

36 EE Parę odpowiedzi Dlaczego pierwotna kora wzrokowa reaguje na zorientowane krawędzie? Bo uczenie korelacyjne w naturalnym środowisku prowadzi do tego typu detektorów. Dlaczego układ wzrokowy rozdziela informacje na szlak grzbietowy i szlak brzuszny? Bo transformacje sygnału wydobywają jakościowo różne informacje, wzmacniając jedne kontrasty a zmniejszając inne. Dlaczego uszkodzenia kory ciemieniowej prowadzą do zaburzeń orientacji przestrzennej i uwagi (zaniedbanie)? Bo uwaga jest emergentną własnością systemów z konkurencją. W jaki sposób rozpoznajemy obiekty w różnych miejscach, orientacji, odległości, przy różnych rzutach obrazu na siatkówkę? Dzięki transformacjom, które tworzą rozproszone reprezentacje w oparciu o cechy o coraz większej złożoności i niezmienniczości przestrzennej.


Pobierz ppt "EE141 1 Percepcja i uwaga Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie Inteligentne Systemy Autonomiczne W oparciu o wykład Prof."

Podobne prezentacje


Reklamy Google