Inteligentne Systemy Autonomiczne

Inteligentne Systemy Autonomiczne
EE141 Inteligentne Systemy Autonomiczne Percepcja i uwaga W oparciu o wykład Prof. Randall O'Reilly University of Colorado oraz Prof. Włodzisława Ducha Uniwersytet Mikołaja Kopernika Janusz A. Starzyk Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie

Problem Rozpoznawania Obrazów
EE141 Problem Rozpoznawania Obrazów W jaki sposób tworzą się pola recepcyjne? Dlaczego kora mózgowa koduje zorientowane paski światła? Uczenie poprzez korelacje w oparciu o naturalne sceny Jak rozpoznajemy obiekty? W rożnych lokalizacjach, rozmiarach, obrotach, i obrazach na siatkówce Dlaczego system wizyjny rozdziela się na strumienie gdzie/co? Niezmienniczość przestrzenna (spatial invariance) jest trudna, bo różne znaki zajmują częściowo te same pola recepcyjne, a te same znaki w różnych miejscach siatkówki obrócone lub innej wielkości wcale się nie pokrywają.

Rozpoznawanie Skąd niezmienniczość?
EE141 Rozpoznawanie Skąd niezmienniczość? Szkic 3D na podstawie rzutów 2D, pamiętana jest tylko jedna reprezentacja 3D (Marr 1982). Podejście syntaktyczne: składaj całość z kawałków modelu. Wariant (Hinton 1981): szukaj transformacji (przesunięcia, skalowania, obrotu), dopasuj do kanonicznej reprezentacji w pamięci. Problem: wiele obiektów 2D może dać różne obiekty 3D; trudno jest dopasować obiekty bo przestrzeń szukania fragmentów i łączenia ich w całość jest zbyt wielka – czy naprawdę pamiętamy obiekty 3D?

Stopniowe transformacje
EE141 Stopniowe transformacje W mózgu niezmienniczość względem obrotów jest mocno ograniczona – np. rozpoznawanie obróconych twarzy. Ograniczoną niezmienniczość rozpoznawania obiektów można uzyskać dzięki stopniowym hierarchicznym równoległym transformacjom, zwiększającym niezmienniczość i tworzącym coraz bardziej złożone cechy rozproszonych reprezentacji. Cel: nie 3D, ale zachować wystarczająco dużo szczegółów by dało się rozpoznać obiekty w niezmienniczy sposób po transformacjach. Map seeking circuits in visual cognition (D. W. Arathorn, 2002 )

EE141 Model rozpoznawania Model objecrec.proj, wiele hiperkolumn, ale bardzo prostych. Uwzględniamy obszary i transformacje między LGN, V1, V2 i V4/IT. 20 wzorców, ale tylko pionowe/poziome elementy. Kombinacje elementów na poziomie IT mają reagować niezmienniczo. Output = reprezentacja na poziomie symbolicznym. Obiekty do rozpoznawania, 3 z 6 możliwych segmentów. Trening na 0-17, test na 4 rozmiary, 5, 7, 9 i 11 pikseli.

Własności modelu rozpoznawania
EE141 Własności modelu rozpoznawania Hiperkolumna: te same sygnały, przesunięte i częściowo się pokrywające. Elementy wewnątrz hiperkolumny konkurują, kWTA, elementy w warstwie również konkurują – hamowanie na większym obszarze. Całkowite hamowanie = max (lokalnego, z całej warstwy). Hiperkolumny dokują ekstrakcji cech w całym polu widzenia => wystarczą te same wagi (weight sharing) dla każdej hiperkolumny. Obiekty reprezentowane są za pomocą krawędzi w warstwie LGN On/Off, każda 16x16, zawinięte brzegi (geometria sferyczna). V1: ma już wyuczone reprezentacje krawędzi pionowych i poziomych, pola recepcyjne 4x4 w LGN, jest 8 pionowych i poziomych krawędzi dla on i 8 dla off, razem 16 = 4x4 jednostki. V2: hiperkolumny 8x8, sygnały z ¼ pola widzenia, w matrycy 4x4. V4/IT: 10x10, całe pole wzrokowe, dla tak prostych obiektów wystarczy.

EE141 Więcej własności Symulacje bez wspólnych wag dla hiperkolumn dają te same rezultaty, chociaż są znacznie bardziej kosztowne; Hebbowski mechanizm prowadzi do jednakowych wag dla kolumny o tych samych (xi,yi). Bez Hebba sama korekcja błędów daje całkiem różne reprezentacje dla hiperkolumn, bo nie wykrywa korelacji wejść. Brak połączeń horyzontalnych – rep. V1 jest już ustalona, więc nie są konieczne a zwalniają uczenie; te połączenia są ważne w procesach wypełniania, iluzjach, rozpoznawaniu przysłoniętych obiektów. Parametry: Hebb =0.005, ale pomiędzy V1/V2 jest tylko bo współdzielenie wag daje częstsze pobudzenia = wiec zmiana. Uczenie: szybkość 0.01 => po 150 epokach by stabilizować uczenie i przyspieszyć początkowe. Budowa sieci: BuildNet, sprawdzić własności połączeń, r.wt.

Eksploracja sieci StepTrain, faza – i StepTrain, faza +
EE141 Eksploracja sieci StepTrain, faza – i StepTrain, faza + Całość trenowania wymaga wielu godzin; jeden obiekt może być w 4 rozmiarach i 256 pozycjach w siatce 16x16, razem są 1024 obrazy jednego obiektu, 18 obiektów treningowych, wzorców. Wytrenowana sieć po 460 epokach x 150 obiektów na epokę, po prezentacji osiąga dobre wyniki, mniej niż 2 prezentacje/wzorzec. net_updt => cycle_updt pokaże uczenie dla całego cyklu, na wytrenowanej sieci fazy – i + są takie same. Jak koreluje się aktywność V2 i V4 z wejściami w LGN? Pola recepcyjne wynikające z uśrednionej aktywacji można obejrzeć patrząc na korelacje x z LGN, y z V2 lub V4, dla każdego elementu hiperkolumny 8x8 przedstawiamy wszystkie ri

Pola recepcyjne uśrednionej aktywacji
EE141 Pola recepcyjne uśrednionej aktywacji Aktywność 16x16 LGN-on-center dla jednej hiperkolumny V2, 8x8 elementów; współdzielenie wag => inne tak samo. Elementy z lewego dolnego rogu V2, odbierające z ¼ całego pola LGN. Jasne paski = selektywna jednostka dla krawędzi (różnych rozmiarów) w określonym położeniu. Elementy V2 nie reagują na pojedyncze linie tylko na ich kombinacje. Rozmyte równoległe paski – reakcja na te same kombinacje w różnym położeniu.

EE141 Pola off V2 Aktywność LGN-off-center dla jednej hiperkolumny V2 współdzielenie wag => inne tak samo. Te elementy reagują bardziej na zakończenia krótszych linii. Elementy reagujące selektywnie biorą udział w reprezentacji wielu wzorców, wykrywają złożone cechy wspólne dla różnych obiektów.

Korelacje V2 – obiekty wyjściowe
EE141 Korelacje V2 – obiekty wyjściowe Reakcja jednostek V2 na wykrywanie poszczególnych obiektów, czyli korelacje V2 – uśrednione wyjście 4x5 = 20 obiektów.

Korelacje V4 – obiekty wyjściowe
EE141 Korelacje V4 – obiekty wyjściowe Reakcja jednostek V4 na wykrywanie poszczególnych obiektów, czyli korelacje V4 – uśrednione wyjście 4x5. Większa selektywność niż w V2, bo większa niezmienniczość i reakcja na bardziej złożone cechy.

Testy pól recepcyjnych
EE141 Testy pól recepcyjnych Obserwacja reakcji V2 i V4: 4 próbki używane w testach, każda pokazana we wszystkich pozycjach lewego kwadrantu wejść LGN, czyli 8x8. Kolumny V2 reagują na ¼ całego pola. Obliczamy reakcje na poziomie V2/V4, kwadranty odpowiadają poszczególnym próbkom testowym; np. dla próbki 0 reakcje na wszystkie 8x8 pozycji tej próbki są w lewej dolnej ćwiartce dla danego elementu, cała jego aktywność dla 4 elementów jest w kwadracie 16x16.

EE141 Testy V2 dla próbek Hiperkolumna V2 ma 8x8 elementów, reakcje każdego na 4 próbki uśrednione po wszystkich pozycjach są w małych kwadratach 16x16.

EE141 Testy V4 dla próbek V4 ma 10x10 elementów, reakcje każdego na 4 próbki uśrednione po wszystkich pozycjach są w małych kwadratach 16x16. Niezależność od pozycji widać po całych żółtych kwadratach. Niektóre reagują na pojedyncze cechy próbki, inne na całą próbkę, a kilka na obecność elementów, które są w każdej próbce.

EE141 Testy statystyczne Tabela 8.1 podsumowuje wyniki testu prezentacji 20 obiektów we wszystkich pozycjach i reakcji (dla progu >0.5) elementów V4 na te prezentacje. Dla jednego obiektu w 256 możliwych pozycjach i 4 rozmiarach (1024 wzorce) na poziomie V4 jest średnio 10 różnych aktywacji. Szczegółowe wyniki są w objrec.swp_pre.err. Dwa nieznane obiekty 18, 19 dają same błędy. Trenowanie w celu określenia generalizacji: prezentacja nowego obiektu raz na 4 prezentacje; w 36 z 256 możliwych pozycji, rozmiary 5 lub 9 pikseli, więc 14% pozycji i 50% rozmiarów, 72 wzorce (7%). Po 60 epokach treningu, 150 obiektów/epokę, stała uczenia 0.001, obiekt 18 dał 85% poprawnych odpowiedzi na 1024 wzorce; obiekt 19 dał 66% poprawnych odpowiedzi, dla małych rozmiarów.

EE141 Szlak grzbietowy Rozpoznawanie to funkcja szlaku brzusznego, teraz pora na grzbietowy. Funkcje: wykrywanie ruchu, umiejscowienie, „gdzie” i jak działać, ale i na czym skupić uwagę i jak dzięki temu przerzucać uwagę z jednego obiektu na drugi obiekt. Uwaga pozwala powiązać różne własności obiektu w jedną całość, rozwiązać problem spójności wrażeń pomimo rozproszonego przetwarzania; rozproszona aktywacja => cech ze sobą powiązanych, odnoszących się do jednego obiektu. Głównie model uwagi, emergentnego procesu wynikającego ze struktury i dynamiki sieci neuronów, głównie hamowania. Efekty uwagi są powszechne, widoczne w różnych sytuacjach. Na co zwracać uwagę? Czy to dobrze postawione pytanie? Psy gryzą, a nie tylko Burek, nie tylko kundle, nie tylko czarne ...

Model uwagi przestrzennej
EE141 Model uwagi przestrzennej Interakcja reprezentacji przestrzennych z rozpoznawaniem obiektów. Jak szlak grzbietowy oddziałuje na szlak brzuszny? Różne reprezentacje przestrzenne w korze ciemieniowej, tutaj prosta mapa relacji przestrzennych. No cue cue Eksperyment Posnera: uwaga kierowana jest na bodziec przygotowujący (cue), co wpływa na czasy reakcji na prosty bodziec docelowy, zależnie od tego czy pojawia się w tym samym czy w innym miejscu. Aktywacja w określonym miejscu => szybkość rozpoznania.

Uwaga Przestrzenna: model
EE141 Uwaga Przestrzenna: model Możliwa jest mediacja uwagi przez V1, ale wtedy hamowanie zapobiegnie przeniesieniu uwagi na inny obiekt. Oryginalny model Posnera: kora ciemieniowa „uwalnia” uwagę. Istnieje bezpośrednie sprzężenie (V4-V5?) pomiędzy szlakiem grzbietowym i brzusznym plus droga przez V1. Uwaga przestrzenna wpływa na rozpozna-wanie; grubsze linie = silniejszy wpływ. Model O’Reilly Wymuszane przez szlak grzbietowy (PC)

Lezje szlaku grzbietowego
EE141 Lezje szlaku grzbietowego Lezje kory ciemieniowej wpływają silnie na mechanizmy uwagi i orientacji przestrzennej, rozległe lezje w jednej półkuli prowadzą do jednostronnego zaniedbania, niezdolności wyobrażenia (skupienia uwagi) na przeciwległej do lezji części przestrzeni. Dla niewielkich lezji jednostronnych widać wyraźne spowolnienie przeniesienia uwagi do miejsca po przeciwległej stronie. Dla rozległych przeniesienie uwagi nie jest możliwe. Lezje dwustronne prowadzą do zespołu Balinta, trudności w precyzyjnym kierowaniu ręką za pomocą wzroku, symultanagnozji; różnice pomiędzy czasami przeniesienia uwagi w eksperymencie Posnera są niewielkie. Posner twierdził, że to wynik przykucia uwagi, niezdolności do oderwania ale nie podał mechanizmu odrywania, następuje ono po skupieniu uwagi gdzie indziej – lepszy model zakłada zwykłą konkurencję.

Uwaga Przestrzenna: Jednostronne Zaniechanie
EE141 Uwaga Przestrzenna: Jednostronne Zaniechanie Autoportret Pacjenci z uszkodzeniami rozpoznania przestrzenno- czasowego zapominają o polowie przestrzeni mimo ze ja widza

Uwaga Przestrzenna: Jednostronne Zaniechanie
EE141 Uwaga Przestrzenna: Jednostronne Zaniechanie Zadanie przekreslania linii poziomych Kopiowanie rysunkow

EE141 Model uwagi Model attn_simple.proj ze strony Bodźce: pojedyncze aktywacje w jednym z 7 miejsc, dla dwóch obiektów (cue, target). 3 warstwy, niezmienniczość wzrasta, każdy element wyższej warstwy zwija 3 niższe, stąd V1 jest 2x7, Spat1, Obj1 2x5, Spat2, Obj2 jest 2x3, wyjście 2x1. Czas reakcji: czas potrzebny by aktywność wyjścia target połączonego z Obj2 doszła do 0.6 Spat2 reaguje tylko na położenie.

Eksploracja modelu r.wt pokaże połączenia.
EE141 Eksploracja modelu r.wt pokaże połączenia. Panel kontrolny ma kilka parametrów skalujących: spat_obj = 2, skalowanie wag spat=>obj, obj_spat =0.5 (nie pokazane) v1_spat = 2, silniejsze niż v1_obj, niewielki szum noise_var = cue_dur = 200 liczba cykli w czasie której prezentowany jest bodziec przygotowujący, po nim następuje docelowy. 3 sytuacje dla Multi_objs: a) dwa różne obiekty, b) dwa jednakowe, c) dwa różne w tym samym miejscu. act, step przez wszystkie zdarzenia kilka razy View Graph_log i Run –rozpoznanie nakładających się elementów jest zwykle wolniejsze; view text_log; view batch_text_log, run batch.

Eksperyment Posnera env_type std_Posner view events: 0 tylko target,
EE141 Eksperyment Posnera env_type std_Posner view events: 0 tylko target, 1 cue po lewej, target po lewej, 2 cue po lewej, target po prawej. Aktywacja nie jest zerowana po prezentacji pierwszego bodźca, tylko po całej grupie. Display on, clear graph log, step. Batch powtórzy 10x, wykres => W jaki sposób sieć skraca czas po tej samej stronie? W jaki wydłuża po przeciwnej? Testuj spat_obj=1 i v1_spat=1.5, 1 Zmień na even_type Close_Posner i sprawdź efekty.

Prosty model testu Posnera
EE141 Prosty model testu Posnera Czasy rozpoznania objektow: normalizacja skaluje odpowiedz do średniego czasu dorosłych. Cue Valid Invalid D Dorośli 350 msek 390 msek 40 Starzy 540 600 60 Pacjenci 640 760 120 Starzy znorm. 0.65 350 Pacjenci znorm. 0.55 418 68

EE141 Efekty lezji Pacjenci z lezjami nawet po normalizacji mają znacznie dłuższe czasy w teście Posnera, podczas gdy starsze osoby po normalizacji mają różnice takie jak normalni. Lezja w modelu: env_type Std_Posner, Lesion, lesion_lay = Spat1_2 by upośledzić obydwa poziomy, liczba miejsc (locations) = half, liczba elementów = half, czyli 1 z dwóch. liczba elementów = half, czyli 1. Sprawdź (r.wt), że wagi zostały wyzerowane: dwa elementy w prawym rogu Spat_1, i jeden z prawego górnego rogu Spat_2 Batch by zobaczyć wpływ.

EE141 Lezje odwrotnie Jeśli odwrócić zadanie i przerzucać uwagę ze strony w której jest lezja do przeciwległej. Ustawić env_type na Reverse_Posner: różnice znacznie mniejsze (inna skala). Czemu? Normalna strona łatwiej konkuruje z uszkodzoną, więc różnice się zmniejszają – zgodnie z obserwacjami dla pacjentów. Obustronne lezje: Std_Posner, Full dla lokacji, half dla l. jednostek, Batch Efekty wyraźny, ale słabszy niż jednostronnych lezji.

EE141 Lezja całkowita Jednostronne zaniedbanie przy rozległym uszkodzeniu. Symulacja: Multi_obj, half dla miejsc, full dla l. jednostek, Run Sieć ma tendencję do skupiania uwagi na nieuszkodzonej stronie, niezależnie od prezentacji, zaniedbując połowę przestrzeni. Pacjenci z jednostronnym zaniedbaniem nie są zdolni do wyobrażenia jednej strony przestrzeni tylko wtedy, gdy w drugiej jest jakiś bodziec na którym można skupić uwagę (zjawisko ekstynkcji). Podobnie zaniedbanie dla Std_Posner.

EE141 Efekty przerwy Jeśli po bodźcu przygotowawczym zrobimy przerwę rzędu 500 ms pojawia się zjawisko hamowania powrotu do tego bodźca, czasy się częściowo odwracają, zmiana położenia wywołuje szybszą reakcję! Można to symulować wydłużając długość prezentacji bodźca przygotowującego i uwzględniając zmęczenie neuronów (akomodacja). Defaults, No_lesion, enc_type = Std_Posner, accomodate Zmiana z 75 do 200 co 25 ms

Uwaga związana z obiektami
EE141 Uwaga związana z obiektami Efekty uwagi związane z interakcją miejsca w przestrzeni i rozpoznawania obiektu będą podobne do efektów uwagi związanej z rozpoznawaniem konkurencyjnego obiektu (object-based attention). Env_type Obj_attn, View Events Zdarzenia: 2 obiekty bez wskazówek. Wskazówka w położeniu centralnym, dwa obiekty w okolicy centrum, sieć powinna skupić się na pierwszym. Ostatnie dwa: wskazówka i 2 obiekty w tym samym miejscu; żółty = większa aktywacja. Defaults, Step: początkowy obiekt wpływa na wybór nawet jeśli drugi obiekt jest bardziej aktywny.

EE141 Podsumowanie Efekty uwagi pojawiają się naturalnie w modelu jako wynik konkurencji przez hamowanie, wzajemnych połączeń, konieczności kompromisów. Podobne efekty widać w różnych mechanizmach korowych. Niektóre mechanizmy psychologiczne (zwalnianie uwagi) okazują się niepotrzebne. Efekty związane z uwagą dostarczają szczegółowych informacji pozwalających na dostrojenie modeli do wyników eksperymentów i użycie tych modeli do innych przewidywań; jest też sporo neurofizjologicznych danych dotyczących uwagi. Ograniczenia tego modelu: brak efektów związanych ze wzgórzem (praca Wager, O’Reilly), zbyt prosta reprezentacja obiektów (jedna cecha).

Złożony model rozpoznawania
EE141 Złożony model rozpoznawania Model objectrec_multiobj.proj.gz, roz Model ma dodatkowe dwie warstwy Spat1 połączone z V1 i Spat2 połączone z V2. Spat1 ma pobudzenia wewnątrz warstwy, skupia się na obiekcie. Warstwa Target pokazuje, który wzorzec został wybrany i czy pasuje do wyjścia.

Dwa obiekty w różnych miejscach
EE141 Dwa obiekty w różnych miejscach BuildNet, r.wt by sprawdzić połączenia, pola recepcyjne w V1. LoadNet, r.wt by sprawdzić po treningu. Spat_1 reaguje na pola w V1 o rozmiarach 8x8, zawijanie prawa na lewą Spat_2 na pola V2 16x16. Dwa obiekty (prostop. linie) z tą samą aktywacją w różnych miejscach. StepTest, obiekt nr. 12, prezentowany w lewym dolnym rogu. Początkowo oscylacje, ale stopniowa przewaga jednego z dwóch miejsc i znajdującego się tam obiektu; wpływ na niższe warstwy, w V1 pozostaje aktywacja tylko jednego. View Test_log; widać błędy w rozpoznawaniu, bo obiekty są małe, a jednoczesna aktywacja V1 wprowadza zamieszanie – brak mechanizmu sakad prowadzącego do kolejnego, a nie jednoczesnego pobudzania. Zmniejszenie fm_sapt1_scale z 1 do 0.01, simultanagnozja, nie da się rozpoznać dwóch obiektów, można tylko jeden!

Wpływ lokalizacji przestrzennej
EE141 Wpływ lokalizacji przestrzennej Aktywacja przestrzenna może co najwyżej modulować proces rozpoznawania, inaczej będziemy wiedzieli gdzie, ale nie co. Zapewnia to hamowanie i konkurencja, rozpoznawanie jest kombinacją aktywacji miejsca i wzmacnianych cech w niższych warstwach. Przełączanie obiektów: włączamy akomodację neuronów. Accomodate, InitStep, TestStep Po zmęczeniu neuronów pierwszym obiektem uwaga przesuwa się do drugiego, po warstwie Spat1. Często robione są błędy, nie jest to jeszcze dobry mechanizm kontrolny. Uwaga związana z obiektem też daje się w tym modelu zobaczyć. View, Test_Process_ctrl, environment z vis_sim_test => obj_attn_test (na dole ScriptEnv). Apply, Reinit, Step. Sieć rozpoznaje obiekt 17; Step sieć rozpoznaje 12 i 17, zostaje przy 17

EE141 Parę odpowiedzi Dlaczego pierwotna kora wzrokowa reaguje na zorientowane krawędzie? Bo uczenie korelacyjne w naturalnym środowisku prowadzi do tego typu detektorów. Dlaczego układ wzrokowy rozdziela informacje na szlak grzbietowy i szlak brzuszny? Bo transformacje sygnału wydobywają jakościowo różne informacje, wzmacniając jedne kontrasty a zmniejszając inne. Dlaczego uszkodzenia kory ciemieniowej prowadzą do zaburzeń orientacji przestrzennej i uwagi (zaniedbanie)? Bo uwaga jest emergentną własnością systemów z konkurencją. W jaki sposób rozpoznajemy obiekty w różnych miejscach, orientacji, odległości, przy różnych rzutach obrazu na siatkówkę? Dzięki transformacjom, które tworzą rozproszone reprezentacje w oparciu o cechy o coraz większej złożoności i niezmienniczości przestrzennej.

Inteligentne Systemy Autonomiczne

Podobne prezentacje

Prezentacja na temat: "Inteligentne Systemy Autonomiczne"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

Inteligentne Systemy Autonomiczne

Podobne prezentacje

Prezentacja na temat: "Inteligentne Systemy Autonomiczne"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres