Nowoczesne techniki wyznaczania map głębi mgr inż. Krzysztof Wegner Katedra Telekomunikacji Multimedialnej i Mikroelektroniki Politechnika Poznańska Seminarium „Przetwarzanie obrazów i multimedia”, listopad 2008
Plan prezentacji Ocena jakości (Middlebury+, MPEG) Poprzednie podejścia Ogólna idea Miary podobieństwa Algorytmy optymalizacji Przyszłe prace
Baza danych Middlebury Strona poświęcona algorytmom wyznaczania map głębi Dostępne wielowidokowe statyczne zestawy testowe z mapami Ground-Truth Ranking dokładności wyznaczania map głębi dla 4 zestawów testowych: Tsukuba, Venus, Teddy, Cones Około 50 algorytmów z całego świata Kryterium „bad-pixels” http://vision.middlebury.edu/
Obrazy testowe Middlebury Tsukuba Venus Teddy Cones Obraz Głębia
Kryterium ‘bad-pixels’ Klasyfikacja punktu jako błędny: Przekroczenie progu przez wartość bezwzględną błędu rozbieżności Progi: 0.5, 0.75, … 2.0 Względna liczba błędnych punktów Spłaszczenie charakteru błędów! Wyniki najlepszych algorytmów: 0,1% - 3%
Uzupełnione kryteria oceny NBP-SAD (Normalized Bad Pixel SAD) NBP-SSD (Normalized Bad Pixel SSD)
MPEG - sekwencje 10 sekwencji testowych: Pantomime, Champagne_tower, Dog, Book_arrival, Leaving_laptop, Doorflowers, Alt-Moabit, Lovebird1&2, Newspaper Rozdzielczość: 1024x768 ÷ 1280x960 Ilość klatek/s: 16,67 ÷ 30 FPS Długość: 100 ÷ 600 ramek Rozstaw kamer: 3,5 cm ÷ 6,5 cm Ilość kamer: 12 ÷ 80 kamer
MPEG - sekwencje Doorflowers Alt Moabit Pantomime Dog Lovebird 1 Champagne tower Newspaper
MPEG - jakość Porównanie poziomu PSNR syntezy widoku z oryginalnym widokiem Synteza widoków SL, SR w pozycjach widoków OL, OR na podstawie widoków NL+D, NR+D Wynik syntezy (SL, SR) porównywany z oryginałami (OL, OR)
Poprzednie podejścia Bezpośrednie pasowania bloków Algorytm Viterbiego (1D) Przepływ optyczny Inteligentna dekwantyzacja (Mid-level hypothesis)
Bad-pixel vs PSNR syntesy Poprzednie podejścia Bad-pixel vs PSNR syntesy
Ogólna idea Większość algorytmów wyznaczania głębi działa w oparciu o następujący schemat Wyznaczenie kosztu pasowania elementów sceny pasowanie bloków pasowanie segmentów pasowanie elementów struktury Optymalizacja Nic - WTA (Winner Takes All) Algorytm Viterbego Propagacja wierzeń - Belief Propagation Ciecie grafu - Graph Cut Przetwarzanie końcowe Zwiększanie precyzji mapy głębi Wykrywanie nie ciągłości mapy głębi
Miary podobieństwa obrazu Stosowane miary podobieństwa obrazów Miara SSD Miara SAD Miara GRAD Miara RANK Miara CENTUS Podobieństwo segmentów (kształt)
Miara RANK Non-parametric Local Transforms for Computing Visual Correspondence - Ramin Zabih and John Woodfill Miara oparta o nieparametryczną transformację obrazu RANK Transformacja RANK przypisuje każdemu punktowi P obrazu liczbę określającą ilość punktów w jego sąsiedztwie N(P) które mają mniejszą od niego jasność I. 127 129 126 128 131 Przykładowy punkt P wraz z otoczeniem. Punkty o jasności mniejszej od I(P) wytłuszczono
Transformacja RANK obrazu oryginalnego z otoczeniem 5x5 Miara RANK Miarą podobieństwa dwóch punktów jest różnica pomiędzy wartościami transformaty RANK . Zastosowanie transformacji RANK na obrazie Cones Obraz oryginalny Transformacja RANK obrazu oryginalnego z otoczeniem 5x5
Miara CENTUS Non-parametric Local Transforms for Computing Visual Correspondence - Ramin Zabih and John Woodfill Miara oparta o nieparametryczną transformację obrazu CENTUS Transformacja CENTUS przypisuje każdemu punktowi P obrazu ciąg bitów reprezentujący które z punktów w jego sąsiedztwie N(P) mają mniejszą od niego jasność I. 127 129 126 128 131 1 Przykładowy punkt P wraz z otoczeniem. Punkty o jasności mniejszej od I(P) wytłuszczono
Transformacja CENTUS obrazu oryginalnego z otoczeniem 5x5 Miara CENTUS Miarą podobieństwa dwóch punktów jest odległość hamminga pomiędzy wartościami transformaty CENTUS Zastosowanie transformacji CENTUS na obrazie Tsukuba Obraz orginalny Transformacja CENTUS obrazu oryginalnego z otoczeniem 5x5
Miary podobieństwa obrazów Mapy głębi wyznaczone na postawie różnych miar podobieństwa obrazów dla obrazka cones SAD GRAD RANK CENTUS 59,180444% 55,754074% 77,143111% 61,539556%
Agregacja kosztu Agregacja kosztu bazuje na obserwacji iż pasowanie pojedynczych punktów jest nie efektywne Agregacja w bokach powoduje pojawienie się artefaktów pasowania elementów spowodowanie nieregularnymi kształtami elementów obrazu Rozwiązanie: Pasowanie elementów w miękko po segmentowanym obrazie
Miękka segmentacja Obraz dzielony jest na wiele nakładających się segmentów. Każdy punktu należy do danego segmentu z pewną wagą bazującą na podobieństwie analizowanych punktów.
Miary podobieństwa obrazów Przed agregacją SAD GRAD RANK CENTUS 59,180444% 55,754074% 77,143111% 61,539556% Po agregacji SAD GRAD RANK CENTUS 33,612444% 12,795259% 41,185778% 25,473185%
Łączne miary podobieństwa obrazów Aby zwiększyć jakoś wyznaczania map głębi zaproponowano łączne miary podobieństwa obrazów Max(SAD,GRAD,RANK) SAD+RANK Po agregacji SAD GRAD RANK MAX(SAD,GRAD,RANK) 33,612444% 12,795259% 41,185778% 6,135704%
Miary podobieństwa obrazów GRAD SAD RANK SAD+RANK Max(SAD,RANK,GRAD) WTA 13,95 38,05 47,09 12,91 6,93 BP 3,7 4,13 2,94 2,85 2,98
Belief Propagation Ogólna metoda rozwiązywania problemów optymalizacyjnych Używana jest najczęściej do Wyznaczania map głębi Uzupełniania obrazów Generowania nowej tekstury na podstawie próbki Segmentacji obrazów
Belief propagation Na elementach strukturalnych (punkty, segmenty) obrazu (np. lewego) rozciągana jest siatka węzłów algorytmu BP. Jeśli dwa elementy sąsiadują ze sobą w obrazie odpowiadające im węzły także zostają połączone.
Belief propagation W każdym węźle przechowywana jest informacja o koszcie pasowania danego elementu z obrazu lewego w pewne potencjalne miejsce w obrazie prawym Koszt ten jest miarą „wierzenia” węzła iż element który reprezentuje faktycznie pasuje w dane miejsce w drugim obrazie
Belief propagation Propagacja „wierzeń” pomiędzy węzłami za pośrednictwem dedykowanych wiadomości Schemat bez widoku
Belief propagation Wiadomości wyznaczane są na podstawie: Modelu zmiany wierzenia Własnych obserwacji Wiadomości otrzymanych z innych węzłów
Belief propagation Modele zmiany wierzenia - modele gładkości Potts Model Model liniowy
Belief propagation Zaproponowany przez nas model zmiany wierzeń: oparty o model liniowy uwzględnia podobieństwo punktów pomiędzy którymi przesyłana jest wiadomość zbudowany na liniowej funkcji g(x) z nasyceniem Jeśli występuje krawędz w obrazie miedzy punktem p i q punkty te mnie oddziałują ze sobą. gdzie: Ip – Jasnośc punktu p, Iq – Jasność punktu q
Hierarchiczny BP Przyśpieszenia działania Generalizacji wyniku Przetwarzanie od warstwy o najmniejszej liczbie węzłów do warstwy o największej liczbie węzłów
Mapa głębi dla obrazu Cones Wyjście z algorytmu Pod koniec działania algorytmu, wyznacza się wierzenia własne każdego węzła. Rozbieżność fp o najmniejszej wartości wierzenia jest wybierana, jako wynik Mapa głębi dla obrazu Cones 2.313481%
Inne modyfikacje 8 punktowe otoczenie Przetwarzanie co 2 drugiej wiadomości w schemacie szachownicy Estymacja podpunktowa Otoczenie 4 punktowe Otoczenie 8 punktowe Siatka algorytmu BP
Graph Cuts Ogólna technika Używana w oprogramowaniu referencyjnym MPEG’a Na elementach strukturalnych (punkty, segmenty) obrazu (np. lewego) rozciągany jest graf Jeśli dwa elementy sąsiadują ze sobą w obrazie, odpowiadające im węzły także zostają połączone krawędzią o wadze odpowiadającej podobieństwu tych dwóch elementów
Graph Cuts Do grafu wstawia się pewną ilość węzłów źródłowych reprezentujących możliwe wartości rozbieżności Węzły źródłowe łączone są z każdym węzłem w grafie za pomocą krawędzi o wadze odpowiadającej kosztowi pasowania tego elementu w dane miejsce w drugim obrazie
Graph Cuts Graf dzieli się na rozłączne fragmenty za pomocą cięcia grafu w taki sposób aby każdy fragment połączony był tylko z jednym węzłem źródłowym Węzeł źródłowy połączony z danym fragmentem, reprezentuje szukaną wartością rozbieżności
Jakość map głębi - wyniki
Przyszłe prace Spójność czasowa Optymalne odległość między kamerami Segmentacja
Odległość miedzy kamerami Jak odległość miedzy kamerami wpływa na jakość wyznaczonych map głębi?
Wyniki dokładność punktowa
Wyniki dokładność półpunktowa
Dziękuję za uwagę Pytania?
Technika wyznaczania Ground-Truth Wymaga naświetlania tekstur o regularnym wzorze Kody Gray’a w poziomie i pionie
Inteligentna dekwantyzacja Założenie: na granicy poziomów kwantyzacji występuje poziom pośredni Weryfikacja założenia na podstawie resyntezy Rozrost analizowanego obszaru Wykonywanie wielokrotne pozwala na wielokrotne zagęszczenie liczby poziomów
1. Detekcja krawędzi jednostkowych
2. Wartość pośrednia
3. Weryfikacja przez reysteze
4. Rozprzestrzenianie hipotezy
5. Koniec przetwarzania
Inteligentna dekwantyzacja
Inteligentna dekwantyzacja
Mapy głębi MPEG – dokument : pojęcie głębia Obrazek - krótko