Wykład 10 Neuropsychologia komputerowa Percepcja II: Postrzeganie niezmiennicze Włodzisław Duch UMK Toruń Google: W Duch (c) 1999. Tralvex Yeap. All Rights Reserved
Problem rozpoznawania obiektów Rozpoznajemy obiekty niezależnie od położenia, skali i obrotów - jak? Niezmienniczość przestrzenna (spatial invariance) jest trudna, bo różne znaki zajmują częściowo te same pola recepcyjne, a te same znaki w różnych miejscach siatkówki obrócone lub innej wielkości wcale się nie pokrywają. Niezmienniczość przestrzenna to jedna z najważniejszych własności szlaku brzusznego. Uproszczenie: niezmienniczość obrazu tylko ze względu na położenie i skalę, pomijamy rotację (na to potrzeba dużo neuronów). (c) 1999. Tralvex Yeap. All Rights Reserved
Rozpoznawanie Skąd niezmienniczość? Szkic 3D na podstawie rzutów 2D, pamiętana jest tylko jedna reprezentacja 3D (Marr 1982). Podejście syntaktyczne: składaj całość z kawałków modelu. Wariant (Hinton 1981): szukaj transformacji (przesunięcia, skalowania, obrotu), dopasuj do kanonicznej reprezentacji w pamięci (por. nowsze propozycje, np. „pamięci kognitywnej”, wracające do tego pomysłu). Problem: wiele obiektów 2D może dać różne obiekty 3D; trudno jest dopasować obiekty bo przestrzeń szukania fragmentów i łączenia ich w całość jest zbyt wielka – czy naprawdę pamiętamy obiekty 3D? (c) 1999. Tralvex Yeap. All Rights Reserved
Stopniowe transformacje Niezmienniczość obróconych obrazów jest mocno ograniczona – np. rozpoznawanie obróconych twarzy jest trudne. Ograniczoną niezmienniczość rozpoznawania obiektów można uzyskać dzięki stopniowym hierarchicznym równoległym transformacjom, zwiększającym niezmienniczość i tworzącym coraz bardziej złożone cechy rozproszonych reprezentacji. Cel: nie 3D, ale zachować wystarczająco dużo szczegółów by dało się rozpoznać obiekty w niezmienniczy sposób po transformacjach. Efekt: pamięć na poziomie niezmienniczym to nie pamięć 3D ... (c) 1999. Tralvex Yeap. All Rights Reserved
Model rozpoznawania Model objrec.proj.gz, wiele hiperkolumn, ale bardzo prostych. Uwzględniamy obszary i transformacje między LGN, V1, V2 i V4/IT. 20 wzorców, ale tylko pionowe/poziome elementy. Kombinacje elementów na poziomie IT mają reagować niezmienniczo. Output = reprezentacja na poziomie symbolicznym. Obiekty do rozpoznawania, 3 z 6 możliwych segmentów. 18,19 = test Trening na 0-17, test na 18-19. 4 rozmiary, 5, 7, 9 i 11 pikseli. (c) 1999. Tralvex Yeap. All Rights Reserved
Własności modelu rozpoznawania Hiperkolumna: te same sygnały, przesunięte i częściowo się pokrywające. Elementy wewnątrz hiperkolumny konkurują, kWTA, elementy w warstwie również konkurują – hamowanie na większym obszarze. Całkowite hamowanie = max (lokalnego, z całej warstwy). Hiperkolumny dokują ekstrakcji cech w całym polu widzenia => wystarczą te same wagi (weight sharing) dla każdej hiperkolumny. Obiekty reprezentowane są za pomocą krawędzi w warstwie LGN On/Off, każda 22x22, zawinięte brzegi (geometria sferyczna). V1: 10x10 kolumn po 2x4 elementy, wyuczone reprezentacje krawędzi pionowych i poziomych, pola recepcyjne 4x4 w LGN, jest 8 pionowych i poziomych krawędzi dla on i 8 dla off, razem 16 = 4x4 jednostki. V2: 4x4 hiperkolumn, w matrycy 6x6, sygnały z kolumn 4x4, nakrywanie. V4/IT: 10x10, całe pole wzrokowe, dla tak prostych obiektów wystarczy. (c) 1999. Tralvex Yeap. All Rights Reserved
Więcej własności Symulacje bez wspólnych wag dla hiperkolumn dają te same rezultaty, chociaż są znacznie bardziej kosztowne; Hebbowski mechanizm prowadzi do jednakowych wag dla kolumny o tych samych (xi,yi). Bez Hebba sama korekcja błędów daje całkiem różne reprezentacje dla hiperkolumn, bo nie wykrywa korelacji wejść. Brak połączeń horyzontalnych – rep. V1 jest już ustalona, więc nie są konieczne a spowalniają uczenie; te połączenia są ważne w procesach wypełniania braków, iluzjach, rozpoznawaniu przysłoniętych obiektów. Parametry: Hebb =0.005, ale pomiędzy V1/V2 jest tylko 0.001 bo współdzielenie wag daje częstsze pobudzenia = wiec zmian. Uczenie: szybkość 0.01 => 0.001 po 150 epokach by stabilizować uczenie i przyspieszyć początkowe. Budowa sieci: BuildNet, sprawdzić własności połączeń, r.wt. (c) 1999. Tralvex Yeap. All Rights Reserved
Eksploracja sieci StepTrain, faza – i StepTrain, faza + Całość trenowania wymaga wielu godzin; jeden obiekt może być w 4 rozmiarach i 256 pozycjach w siatce 16x16, razem są 1024 obrazy jednego obiektu, 18 obiektów treningowych, 18 432 wzorce. Wytrenowana sieć po 460 epokach x 150 obiektów na epokę, po 30 000 prezentacji osiąga dobre wyniki, mniej niż 2 prezentacje/wzorzec. net_updt => cycle_updt pokaże uczenie dla całego cyklu, na wytrenowanej sieci fazy – i + są takie same. Jak koreluje się aktywność V2 i V4 z wejściami w LGN? Pola recepcyjne wynikające z uśrednionej aktywacji można obejrzeć patrząc na korelacje xi z LGN, yj z V2 lub V4, dla każdego elementu hiperkolumny 8x8 przedstawiamy wszystkie ri (c) 1999. Tralvex Yeap. All Rights Reserved
Pola recepcyjne uśrednionej aktywacji Aktywność 16x16 LGN-on dla jednej hiperkolumny V2, 8x8 elementów; współdzielenie wag => inne tak samo. Elementy z lewego dolnego rogu V2, odbierające z 4x4 kolumn V1 i ¼ pól LGN. Jasne paski = selektywna jednostka dla krawędzi (różnych rozmiarów) w określonym położeniu. Elementy V2 nie reagują na pojedyncze linie tylko na ich kombinacje. Rozmyte równoległe paski – reakcja na te same kombinacje w różnym położeniu. (c) 1999. Tralvex Yeap. All Rights Reserved
Pola off V2 Aktywność LGN-off dla jednej hiperkolumny V2 współdzielenie wag => inne tak samo. Te elementy reagują bardziej na zakończenia krótszych linii. Elementy reagujące selektywnie biorą udział w reprezentacji wielu wzorców, wykrywają złożone cechy wspólne dla różnych obiektów. (c) 1999. Tralvex Yeap. All Rights Reserved
Korelacje V2 – obiekty wyjściowe Reakcja jednostek V2 na wykrywanie poszczególnych obiektów, czyli korelacje V2 – uśrednione wyjście 4x5 = 20 obiektów. (c) 1999. Tralvex Yeap. All Rights Reserved
Korelacje V4 – obiekty wyjściowe Uśredniona reakcja jednostek V4 na wykrywanie poszczególnych obiektów, czyli korelacje V4 – uśrednione wyjście 4x5. Większa selektywność niż w V2, bo większa niezmienniczość i reakcja na bardziej złożone cechy. (c) 1999. Tralvex Yeap. All Rights Reserved
Testy pól recepcyjnych Obserwacja reakcji V2 i V4: 4 próbki używane w testach, każda pokazana we wszystkich pozycjach lewego kwadrantu wejść LGN, 11x11. Kolumny V2 reagują na ¼ całego pola. Obliczamy reakcje na poziomie V2/V4, kwadranty odpowiadają poszczególnym próbkom testowym; np. dla próbki 0 reakcje na wszystkie 8x8 pozycji tej próbki są w lewej dolnej ćwiartce dla danego elementu, cała jego aktywność dal 4 elementów jest w kwadracie 16x16. (c) 1999. Tralvex Yeap. All Rights Reserved
Testy V2 dla próbek Hiperkolumna V2 ma 8x8 elementów, reakcje każdego na 4 próbki uśrednione po wszystkich pozycjach są w małych kwadratach 16x16. (c) 1999. Tralvex Yeap. All Rights Reserved
Testy V4 dla próbek V4 ma 10x10 elementów, reakcje każdego na 4 próbki uśrednione po wszystkich pozycjach są w małych kwadratach 16x16. Niezależność od pozycji widać po całych żółtych kwadrantach. Niektóre reagują na pojedyncze cechy próbki, inne na całą próbkę, a kilka na obecność elementów, które są w każdej próbce. (c) 1999. Tralvex Yeap. All Rights Reserved
Testy statystyczne Tabela na następnym slajdzie podsumowuje wyniki testu prezentacji 20 obiektów we wszystkich pozycjach i reakcji (dla progu >0.5) elementów V4 na te prezentacje. Dla jednego obiektu w 256 możliwych pozycjach i 4 rozmiarach (1024 wzorce) na poziomie V4 jest średnio 10 różnych aktywacji. Szczegółowe wyniki są w objrec.swp_pre.err. Dwa nieznane obiekty 18, 19 dają same błędy. Trenowanie w celu określenia generalizacji: prezentacja nowego obiektu raz na 4 prezentacje; w 36 z 256 możliwych pozycji, rozmiary 5 lub 9 pikseli, więc 14% pozycji i 50% rozmiarów, 72 wzorce (7%). Po 60 epokach treningu, 150 obiektów/epokę, stała uczenia 0.001, obiekt 18 dał 85% poprawnych odpowiedzi na 1024 wzorce; obiekt 19 dał 66% poprawnych odpowiedzi, dla małych rozmiarów. (c) 1999. Tralvex Yeap. All Rights Reserved
Wyniki przed uczeniem Wyniki testu prezentacji 20 obiektów we wszystkich pozycjach i reakcji (dla progu >0.5) elementów V4 na te prezentacje przed uczeniem na 18 i 19. itm = numer obrazu; err = całkowita l. błędów (poz, rozmiary), %tot = błąd procentowy (# err/10.24), %itm = % błędów dla wszystkich prezentacji obrazów; correl = średnia korelacja z rep. V4 uniq = średnia # unikalnych rep. w V4 dla wszystkich 256 położeń (po binaryzacji). Size summary = to samo uśrednione po rozmiarach. (c) 1999. Tralvex Yeap. All Rights Reserved
Parę odpowiedzi Dlaczego pierwotna kora wzrokowa reaguje na zorientowane krawędzie? Bo uczenie korelacyjne w naturalnym środowisku prowadzi do tego typu detektorów; szczegółowe modele dość wiernie oddają strukturę kolumn wzrokowych jak i pokazują, że jest ona optymalna dla naturalnych tekstur i obrazów. Dlaczego układ wzrokowy rozdziela informacje na szlak grzbietowy i szlak brzuszny? Bo transformacje sygnału wydobywają jakościowo różne informacje, wzmacniając jedne kontrasty a zmniejszając inne. Bo pomoże to w skupianiu uwagi na kolejnych obiektach. (c) 1999. Tralvex Yeap. All Rights Reserved