Psychoakustyczna analiza i perceptualne kodowanie mowy.

Psychoakustyczna analiza i perceptualne kodowanie mowy.
ZAAWANSOWANA ANALIZA SYGNAŁÓW Psychoakustyczna analiza i perceptualne kodowanie mowy. Przygotowali: Wojciech Kozłowski Tomasz Krauze Gdańsk

LUDZKI APARAT SŁUCHU W systemie słuchowym człowieka rolę podstawowego analizatora dźwięku spełnia przewód ślimakowy wchodzący w skład ucha wewnętrznego. Drgania akustyczne powietrza (fala podłużna) powodują drgania mechaniczne strzemiączka. znajdującego się w okienku owalnym ślimaka, czyli na jego wejściu. Te z kolei są przenoszone przez płyn wypełniający przewód ślimakowy i docierają do jego „ścianek", czyli błony podstawnej. Powstająca w cieczy fala hydrodynamiczna wytwarza w tej błonie poprzeczne, mechaniczne fale wędrujące (travelling waves). Maksymalne wychylenie błony występuje w różnym miejscu w zależności od częstotliwości dźwięku. Jest to związane z faktem, że błona rozszerza się w kierunku od okienka owalnego (podstawa ślimaka) do jego wierzchołka (koniec ślimaka), w związku z czym jej elastyczność rośnie a sztywność maleje w tym kierunku. Powoduje to, że dla dźwięków o wysokiej częstotliwości maksymalne wybrzuszenie błony powstaje w okolicy okienka owalnego, a dla niskich - w okolicy wierzchołka. Natomiast dźwięk złożony najsilniej pobudza miejsca odpowiadające jego składowym częstotliwościom harmonicznym. Wychylająca się błona drażni w różnym miejscu rzęski komórek słuchowych, a informacja o tym jest rejestrowana przez system nerwowy.

LUDZKI APARAT SŁUCHU POZYCJA CZĘSTOTLIWOŚCI REZONANSOWYCH WZDŁUŻ ŚLIMAKA

ABSOLUTNY PRÓG SŁYSZALNOŚCI
Chociaż człowiek potrafi usłyszeć dźwięki różniące się ponad MILION RAZY intensywnością (różnica około 130 decybeli), to jednak poniżej pewnego poziomu głośności zwanego absolutnym progiem słyszenia nie słyszy nic. Próg ten zależy od częstotliwości i może być aproksymowany za pomocą poniższej zależności:

PASMA KRYTYCZNE Stanowią podstawową rolę w psychoakustyce i są związane z selektywnością częstotliwościową błony podstawnej. Podpasmo krytyczne jest względną miarą częstotliwościowej rozdzielczości ludzkiego aparatu słuchowego i jest definiowane w różny sposób, np. jako elementarne pasmo częstotliwości o szerokości Δf i środku fo charakteryzujące się tym, że moc akustyczna zawartego w nim szumu jest równa mocy akustycznej tonu prostego (sygnału sinusoidalnego) o częstotliwości środkowej fo. Wykorzystując pojęcie pasma krytycznego wprowadzono percepcyjną jednostkę dźwięku, czyli jeden bark odpowiadający szerokości pojedynczego pasma krytycznego, przy założeniu podziału całego zakresu słyszalności na 25 podpasm. lub w sposób uproszczony:

PASMA KRYTYCZNE Szerokość pasma krytycznego w zależności od częstotliwości Numer pasma krytycznego w zależności od częstotliwości Tabela zawierająca dolne (najmniejsze) częstotliwości każdego z pasm krytycznych

EFEKT MASKOWANIA Silne pobudzenie dźwiękowe o określonej częstotliwości powoduje duże wychylenie błony w odpowiednim miejscu przewodu ślimakowego, co sprawia że są drażnione także rzęski sąsiednich komórek słuchowych, związanych z innymi częstotliwościami. W związku z tym człowiek nie jest ich w stanie usłyszeć, nawet jeśli wystąpią. Prowadzi to do tak zwanego efektu „maskowania" częstotliwościowego, czyli akustycznego „zasłaniania'" jednych częstotliwości przez drugie. Równocześnie silne pobudzenie dźwiękowe wychyla błonę na dłuższy czas, co prowadzi do tzw. „maskowania" czasowego: przez pewien czas przed (pre-maskowanie, do kilkunastu milisekund) i pewien czas po (post-maskowanie, do około 200 milisekund) wystąpieniu silnego pobudzenia o jakiejś częstotliwości nie są słyszane częstotliwości sąsiednie. Pre-maskowanie wynika z faktu, że dźwięki silniejsze są przetwarzane szybciej niż słabsze, post-maskowanie wynika zaś z długiego czasu relaksacji neuronów.

EFEKT MASKOWANIA

PRE-MASKOWANIE i POST-MASKOWANIE

REAKCJA RZĘSEK NERWOWYCH KOMÓREK SŁUCHOWYCH
MASKOWANIE CZASOWE REAKCJA RZĘSEK NERWOWYCH KOMÓREK SŁUCHOWYCH Ogólna odpowiedź na pobudzenie tonem o częstotliwości 2khz o długości 5ms a następnie 200ms Widoczny jest określony czas relaksacji, co wykorzystywane jest w maskowaniu czasowym.

PORÓWNANIE SYGNAŁÓW: ANALIZOWANEGO i SYNTEZOWANEGO
„MASKOWANIE CZASOWE” SKŁADOWYCH PORÓWNANIE SYGNAŁÓW: ANALIZOWANEGO i SYNTEZOWANEGO ZOBRAZOWANIE EFEKTÓW METODY „CZASOWEGO MASKOWANIA” Kształt przebiegu czasowego został zachowany, różnice dotyczą jedynie w niewielkim stopniu amplitudy. Wybrane zostały tylko składowe mające kluczowy wpływ na kształt sygnału mowy. Usunięto nadmiarowość widmową. Możliwa jest oszczędna metoda kodowania (run-length) ilość zerowych składowych kodowana jest na 7bitach

MOWA DŹWIĘCZNA A BEZDŹWIĘCZNA

TRAKT GŁOSOWY JAKO FILTR
W celu redukcji stopnia złożoności obliczeniowej lepiej zastosować filtr typu IIR o minimum 8 biegunach (miejsca zerowe wielomianu w mianowniku transmitancji) ponieważ charakterystyka częstotliwościowa traktu głosowego ma do 4 maksimów lokalnych (formantów). Alternatywą dla IIR byłby FIR o ponad 100 współczynnikach.

TON KRTANIOWY (PODSTAWOWY) PITCH
U MĘŻCZYZN: częstotliwość waha się w przedziale herców (bas, baryton, tenor) U KOBIET: częstotliwość waha się w przedziale herców (alt, mezzosopran, sopran) Podczas zwykłej rozmowy zakres jej zmian nie jest duży, ale zauważalny i związany z intonacją. Inaczej sytuacja wygląda podczas śpiewu. Ton krtaniowy można wykryć za pomocą metod analizy fragmentu mowy: Metoda funkcji autokorelacji Metoda AMDF (ang. Average Magnitude Difference Function) Metoda cepstralna

METODA AUTOKORELACJI a AMDF
Dla k>Ko gdzie Ko=fpr/ft WARUNEK BEZDŹWIĘCZNOŚCI Pierwsze maksimum lokalne r(k)<[0,3 ÷ 0,35]r(0) WARUNEK BEZDŹWIĘCZNOŚCI

METODA CEPSTRALNA Cepstrum z definicji jest odwrotną transformatą Fouriera log-obwiedni widma. Widmo jest symetryczne horyzontalnie zatem wszystkie składowe sinusoidalne po IDFT maja wartość zero, zatem IDFT może być następnie poddane DCT (dyskretną kosinusową transformatą).

ULEPSZENIE METODY AUTOKORELACJI

MODEL GENERACJI SYGNAŁU MOWY

PROSTY KODEK LPC-10 (możliwa 27-krotna kompresja)

PODSUMOWANIE Najbardziej krytycznym czynnikiem w odbiorze dźwięku jest fakt, że ludzki aparat słuchowy jest stratnym koderem, przekazującym informację do mózgu. Zatem głównym zagadnieniem staje się opracowanie efektywnego odwzorowania tego stratnego procesu i wykorzystanie go do „oszukania słuchu”. Jeśli nawet do perfekcyjnego dźwięku dodamy trochę szumu i zakłóceń, ale będą one „ukryte” w widmowym i czasowym obszarze maskowania to nadal będzie on brzmieć perfekcyjnie. Zatem mając na uwadze sposób przetwarzania dźwięku przez ludzki system słuchowy postępujmy zgodnie z zasadą: „DOPASOWUJ SYGNAŁY DO DOCELOWEGO ODBIORCY”

Psychoakustyczna analiza i perceptualne kodowanie mowy.

Podobne prezentacje

Prezentacja na temat: "Psychoakustyczna analiza i perceptualne kodowanie mowy."— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

Psychoakustyczna analiza i perceptualne kodowanie mowy.

Podobne prezentacje

Prezentacja na temat: "Psychoakustyczna analiza i perceptualne kodowanie mowy."— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres