Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Krzysztof Moszczyński

Podobne prezentacje


Prezentacja na temat: "Krzysztof Moszczyński"— Zapis prezentacji:

1 Krzysztof Moszczyński
CZYTANIE Krzysztof Moszczyński 2014

2 Plan prezentacji O umiejętności czytania z ust
Problemy automatycznego rozpoznawania mowy Nowe dziedziny wiedzy związane z rozpoznawaniem mowy Metoda analizy audio- wideo mowy Program komputerowy Mimic Mouth Jak się czytać z ust

3 Przez stulecia Umiejętność czytanie z ruchu warg jest tak stara jak wiedza detektywistyczna i szpiegowska. Już w starożytnym Egipcie uczyli się jej kapłani by bezdźwięcznie porozumiewać się ze sobą. Dziś uczą się jej aktorzy, wywiadowcy niedosłyszący i głusi.

4 Przydatna umiejętność
W sytuacjach szumu utrudniającego słyszenie mowy (hale produkcyjne, masowe zebrania itd.); W miejscach gdzie występuje odbicie dźwięku ( echo, pogłos); Przy zakłóceniach aparatury nagłaśniającej i odbiorze dźwięków z dalszych odległości; W sytuacjach specjalnych ( w teatrze, gdy rozmówców dzieli bariera dźwiękochłonna).

5 Automatyczne rozpoznawanie mowy Automatic Speech Recognition, ASR
Percepcja ludzkiej mowy jest procesem wielo-modalnym , w którym należy dokonać analizy sygnału akustycznego, pod kątem: gramatycznym, semantycznym i pragmatycznym. Wobec nieskuteczności samych tylko metod analizy dźwięku, rozpoznawanie mowy wzbogaca się o rozpoznawanie mowy wideo ( analizę twarzy osoby mówiącej). Przykład nieskuteczności rozpoznawania (efekt McGurk’a): wypowiedziany w języku angielskim fonem /ga/ w wideomowie przypomina fonem /ba/a wiele osób rozpoznaje w wypowiedzi fonem /da/

6 Łączenie rozpoznawania wideo i fono
W języku polskim, używając wskazówek wideo do podjęcia decyzji, czy osoba wypowiedziała fonem /m/, czy /n/, może być łatwiejsze niż podjęcie decyzji kierując się tylko rozpoznaniem audio, jednakże Odwrotnie jest z fonemem /m/ i /p/ - ich rozpoznanie jest bardziej łatwiejsze z analizy audio,

7 Dlaczego rozpoznawanie mowy z ruchu ust jest takie trudne
Z artykulacji dostrzegalnej na zewnątrz - ułożenia i ruchu warg (tzw. zewnętrznych kinemów artykulacyjnych) można rozpoznać tylko ok. 40% głosek; Odczytywanie głosek, środkowo i tylnojęzykowych to sprawa prawie zawsze domysłu ( duża liczba głosek polskich). Większość kinemów jest bardzo podobna , przykładowo: głoski [f] i [w] mają taki sam kinem artykulacyjny; Konieczność domyślania się znaczenia głoski kilkanaście razy w ciągu sekundy - z taką bowiem prędkością przebiega emisja głosek; Konieczność posiadania w pamięci dużej bazy językową czyli zbioru obrazów artykulacyjnych całych wyrazów.; Odczytywanie mowy z ust jest czynnością bardzo męczącą

8 Nowe dziedziny wiedzy Rozpoznawania audio-wideo mowy (ang. Audio-Visual Speech Recognition, AVSR), znane również jako automatyczne czytanie z ruchu warg (ang. Autamatic Lip-Reading, ALR), czytanie mowy (ang. Speech Reading, SR)

9 Historia badań (1) Pierwszy automatyczny system czytania mowy z obrazu ust wprowadził Petajan (1988r). Dysponując nagraniem wideo twarzy mówcy Petajan wyznaczył binarny cyfrowy obraz ust i najważniejsze parametry tj. wysokość, szerokość ust , obwód i powierzchnię ust. Parametry te są wizualnymi charakterystykami ( deskryptorami) mowy.

10 Historia badań (2) Wśród przodujących ośrodków znalazła się ośrodek badawczy kierowany przez Christiana Benoit’a, z Grenoble. Powstały bazy danych wideo nagrywane dla języków angielskiego, języka francuskiego, języka niemieckiego, języka japońskiego oraz języka węgierskiego. Naukowcy przeprowadzili badanie, w którym porównali prace maszyny potrafiącej czytać z ruchu warg z umiejętnościami ludzi, którzy potrafią czytać z ust. Wyniki wykazały, iż maszyna miała 80% dokładność, a ludzie 32%. Źródło Proceedings of the International Conference on Auditory-Visual Speech Processing AVSP.

11 Ilustracja idei rozpoznawania audio-wideo mowy

12 Tracking ust

13 Rozpoznanie mowy – sukces czy porażka?
Sukcesy - Zadawalające rozpoznawanie mowy w przypadku pojedynczych izolowanych słów; Inżynierowie Intela opracowali i udostępnili na zasadach open source oprogramowanie pozwalające tworzyć aplikacje zdolne do "czytania z ruchu ust". Umożliwia ono synchronizację analizy dźwięków z analizą ruchów ust, co ma zwiększać skuteczność rozpoznawania mowy w środowiskach o podwyższonym poziomie hałasu Porażka – Nie istnieje jeszcze system rozpoznawania żywej mowy rejestrowanej w warunkach naturalnych

14 Polacy nie gęsi…. MimicMouth polski program komputerowy do nauki czytania z ust. O programie Osoby głuchonieme dużo czasu spędzają przed komputerem, stąd też chęci do takiej nauki czytania mowy z użyciem komputera będą większe. Ćwiczenia umożliwią osobie niesłyszącej, która nie słyszy sama siebie na poprawne ułożenie ust w taki sposób, aby każdy mógł zrozumieć to co chce przekazać. Dziecko może mieć przed sobą obraz osoby lubianej, babcia, dziadek, aktor Aplikację będzie miała obraz mimiki całej twarzy oraz gestykulacji.

15 O autorach Autorami projektu są:
Arkadiusz Chmielewski i Mariusz Stebelski - studenci Wydziału Informatyki na Uniwersytecie Opolskim Zespół MU liczy już 12 osób, od matematyków, przez projektantów grafiki 2D oraz 3D, aż po językoznawców. Opiekuni naukowi dr hab. Marzena Makuchowska Pracuje w Instytucie Polonistyki i Kulturoznawstwa UO; językoznawca; dr hab. Jolanta Nocoń, profesor Uniwersytetu Opolskiego

16 MimicMouth Program będzie miał interfejs polski i angielski
Krótki filmik

17 Jak nauczyć się czytać z ust
Gdy oglądasz telewizję, zwracaj zawsze uwagę na usta mówiących ludzi. Prezenterzy telewizyjni uczą się odpowiednio otwierać usta by mówić wyraźnie, więc z ruchu ich warg łatwiej jest coś zrozumieć. Obserwuj się w lustrze, powtarzaj alfabet, słowa piosenek lub wiersze. Cały czas skupiaj się na swoich ustach, obserwuj jak różnie się układają, gdy wydajesz z siebie różne dźwięki. Teledyski nie są dobrym materiałem do nauki czytania z ust, ponieważ w piosenkach często przedłużone są niektóre sylaby lub słowa są inaczej akcentowane. Jeżeli stoisz daleko od kogoś on na pewno nie zauważy, że patrzysz na jego usta. Kiedy ludzie bardzo głośno mówią, krzyczą szerzej otwierają usta i bardzo trudno odczytać co mówią.

18 DZIĘKUJĘ ZA UWAGĘ


Pobierz ppt "Krzysztof Moszczyński"

Podobne prezentacje


Reklamy Google