Psychoakustyczna analiza i perceptualne kodowanie mowy.

Slides:



Advertisements
Podobne prezentacje
T47 Podstawowe człony dynamiczne i statyczne
Advertisements

i hałas ultradźwiękowy.
Wykład 5: Dyskretna Transformata Fouriera, FFT i Algorytm Goertzela
Ryszard Gubrynowicz Dwięk w multimediach Ryszard Gubrynowicz Wykład 3.
1. Przetworniki parametryczne, urządzenia w których
WZMACNIACZE PARAMETRY.
Ucho Ucho składa się z trzech części: ucha zewnętrznego, ucha środkowego oraz ucha wewnętrznego. Ucho zewnętrzne występuje jedynie u ssaków. Ucho zewnętrzne.
Materiały pochodzą z Platformy Edukacyjnej Portalu
Kodowanie sygnałów audio w dziedzinie częstotliwości
ATRAC Adaptive Transform Acoustic Coding PTMT MiniDisc - 1/5 pojemności standardowego CD - 74 min dźwięku ATRAC pasmo 22 kHz (cz ęstotliwość próbkowania.
Jak jest zbudowane? Jak słyszymy?
Fale.
„Zmysłami otwieram okna
Ryszard Gubrynowicz Dwięk w multimediach Ryszard Gubrynowicz Wykład 10.
Wykład no 6 sprawdziany:
Podstawowe pojęcia akustyki
1. Materiały galwanomagnetyczne hallotron gaussotron
Fizyka słyszenia i Psychoakustyka
SPRZĘŻENIE ZWROTNE.
W naszym ciele mamy 215 par mięśni szkieletowych
Fizyka – Transport Energii w Ruchu Falowym
Opis matematyczny elementów i układów liniowych
Drgania i fale. Akustyka
Cele i rodzaje modulacji
Dane INFORMACYJNE Nazwa szkoły: ID grupy: Opiekun: Wiesław Hendel
Fizyka – drgania, fale.
Systemy Wizyjne i Głosowe
Budowa ucha 1 - czaszka 2 - przewód słuchowy zewnętrzny
Fale dźwiękowe.
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
DŹWIĘK KAMERTONY.
fmax 1kHz 4kHz 8kHz B 12kHz 48kHz 96kHz
Hałas wokół nas Dane INFORMACYJNE Nazwa szkoły:
Częstotliwość próbkowania, aliasing
Dane INFORMACYJNE ID grupy: B3 Lokalizacja: Białystok
Biofizyka Procesów Słyszenia i Widzenia
Doświadczenie Pomiar prędkości dźwięku
Metody odszumiania sygnałów
KARTY DŹWIĘKOWE.
PROJEKT EDUKACYJNY W GIMNAZJUM Z FIZYKI
Piotr Frydrych r. 1/18. Proponowane odpowiedzi:  przyrost intensywności bodźca zdolny wywołać dostrzegalny przyrost intensywności wrażenia.
Przygotowanie do egzaminu gimnazjalnego
Słuch i hałas.
Estymacja reprezentacji biegunowych: POLIDEM
Daria Olejniczak, Kasia Zarzycka, Szymon Gołda, Paweł Lisiak Kl. 2b
Temat: Pojęcie fali. Fale podłużne i poprzeczne.
ZAAWANSOWANA ANALIZA SYGNAŁÓW
Świat Dźwięków W naszym środowisku dźwięk pełni najrozmaitsze funkcje. Dostarcza przyjemności (szum morza, śpiew ptaków) lub przykrości (hałas). Może.
Analiza czasowo-częstotliwościowa
Budowa głośnika.
Właściwości dźwięku.
Hałas. Hałas – dźwięk, który w określonym miejscu, czasie jest niepożądany lub szkodliwy dla zdrowia Hałas – wszelkie niepożądane, nieprzyjemne, dokuczliwe,
Podstawy akustyki i obróbka dźwięku
Wstęp do Multimediów Wykład 3 Słuch.
Temat: Hałas i jego wpływ na zdrowie człowieka
Przygotowała Marta Rajska kl. 3b
Czym jest dźwięk ?.
Powtórzenie – drgania i fale sprężyste
D źwięk W tej prezentacji: D owiecie się, jak brzmi definicja dźwięku; P rzyjrzycie się budowie ucha; D owiecie się więcej na temat ruchu drgającego; Z.
Eksperyment edukacją przyszłości – innowacyjny program kształcenia w elbląskich szkołach gimnazjalnych. Program współfinansowany ze środków Unii Europejskiej.
Temat: Jak powstaje fala? Rodzaje fal.
Zjawisko rezonansu w obwodach elektrycznych. Rezonans w obwodzie szeregowym RLC U RCI L ULUL UCUC URUR.
Akustyka 1 Charakterystyka dźwięków Akustyka 1 Charakterystyka dźwięków FIZYKA dla Liceum Lekcje multimedialne M.J. Kozielski - Fizyka dla.
Fale dźwiękowe. Dźwięk ● Dźwięk to wrażenie słuchowe. Jest ono spowodowane falą akustyczną, która rozchodzi się w ośrodku sprężystym. Mogą to być ciecze,gazy,i.
SŁUCH.
MODULACJE Z ROZPROSZONYM WIDMEM
Elementy akustyki Dźwięk – mechaniczna fala podłużna rozchodząca się w cieczach, ciałach stałych i gazach zakres słyszalny 20 Hz – Hz do 20 Hz.
Od czego zależy wrażenie głośności dźwięku?
„mowa ptaków” Dr inż. Agnieszka Lisowska-Lis Dr inż. Robert Wielgat
Głośniki UTK. Głośnik dynamiczny Membrana Im niższe częstotliwości, tym lepiej służy im duża sztywność membrany, odpowiedzialna za dynamikę, a mniej.
Zapis prezentacji:

Psychoakustyczna analiza i perceptualne kodowanie mowy. ZAAWANSOWANA ANALIZA SYGNAŁÓW Psychoakustyczna analiza i perceptualne kodowanie mowy. Przygotowali: Wojciech Kozłowski Tomasz Krauze Gdańsk 12.01.2009

LUDZKI APARAT SŁUCHU W systemie słuchowym człowieka rolę podstawowego analizatora dźwięku spełnia przewód ślimakowy wchodzący w skład ucha wewnętrznego. Drgania akustyczne powietrza (fala podłużna) powodują drgania mechaniczne strzemiączka. znajdującego się w okienku owalnym ślimaka, czyli na jego wejściu. Te z kolei są przenoszone przez płyn wypełniający przewód ślimakowy i docierają do jego „ścianek", czyli błony podstawnej. Powstająca w cieczy fala hydrodynamiczna wytwarza w tej błonie poprzeczne, mechaniczne fale wędrujące (travelling waves). Maksymalne wychylenie błony występuje w różnym miejscu w zależności od częstotliwości dźwięku. Jest to związane z faktem, że błona rozszerza się w kierunku od okienka owalnego (podstawa ślimaka) do jego wierzchołka (koniec ślimaka), w związku z czym jej elastyczność rośnie a sztywność maleje w tym kierunku. Powoduje to, że dla dźwięków o wysokiej częstotliwości maksymalne wybrzuszenie błony powstaje w okolicy okienka owalnego, a dla niskich - w okolicy wierzchołka. Natomiast dźwięk złożony najsilniej pobudza miejsca odpowiadające jego składowym częstotliwościom harmonicznym. Wychylająca się błona drażni w różnym miejscu rzęski komórek słuchowych, a informacja o tym jest rejestrowana przez system nerwowy.

LUDZKI APARAT SŁUCHU POZYCJA CZĘSTOTLIWOŚCI REZONANSOWYCH WZDŁUŻ ŚLIMAKA

ABSOLUTNY PRÓG SŁYSZALNOŚCI Chociaż człowiek potrafi usłyszeć dźwięki różniące się ponad MILION RAZY intensywnością (różnica około 130 decybeli), to jednak poniżej pewnego poziomu głośności zwanego absolutnym progiem słyszenia nie słyszy nic. Próg ten zależy od częstotliwości i może być aproksymowany za pomocą poniższej zależności:

PASMA KRYTYCZNE Stanowią podstawową rolę w psychoakustyce i są związane z selektywnością częstotliwościową błony podstawnej. Podpasmo krytyczne jest względną miarą częstotliwościowej rozdzielczości ludzkiego aparatu słuchowego i jest definiowane w różny sposób, np. jako elementarne pasmo częstotliwości o szerokości Δf i środku fo charakteryzujące się tym, że moc akustyczna zawartego w nim szumu jest równa mocy akustycznej tonu prostego (sygnału sinusoidalnego) o częstotliwości środkowej fo. Wykorzystując pojęcie pasma krytycznego wprowadzono percepcyjną jednostkę dźwięku, czyli jeden bark odpowiadający szerokości pojedynczego pasma krytycznego, przy założeniu podziału całego zakresu słyszalności na 25 podpasm. lub w sposób uproszczony:

PASMA KRYTYCZNE Szerokość pasma krytycznego w zależności od częstotliwości Numer pasma krytycznego w zależności od częstotliwości Tabela zawierająca dolne (najmniejsze) częstotliwości każdego z pasm krytycznych

EFEKT MASKOWANIA Silne pobudzenie dźwiękowe o określonej częstotliwości powoduje duże wychylenie błony w odpowiednim miejscu przewodu ślimakowego, co sprawia że są drażnione także rzęski sąsiednich komórek słuchowych, związanych z innymi częstotliwościami. W związku z tym człowiek nie jest ich w stanie usłyszeć, nawet jeśli wystąpią. Prowadzi to do tak zwanego efektu „maskowania" częstotliwościowego, czyli akustycznego „zasłaniania'" jednych częstotliwości przez drugie. Równocześnie silne pobudzenie dźwiękowe wychyla błonę na dłuższy czas, co prowadzi do tzw. „maskowania" czasowego: przez pewien czas przed (pre-maskowanie, do kilkunastu milisekund) i pewien czas po (post-maskowanie, do około 200 milisekund) wystąpieniu silnego pobudzenia o jakiejś częstotliwości nie są słyszane częstotliwości sąsiednie. Pre-maskowanie wynika z faktu, że dźwięki silniejsze są przetwarzane szybciej niż słabsze, post-maskowanie wynika zaś z długiego czasu relaksacji neuronów.

EFEKT MASKOWANIA

PRE-MASKOWANIE i POST-MASKOWANIE

REAKCJA RZĘSEK NERWOWYCH KOMÓREK SŁUCHOWYCH MASKOWANIE CZASOWE REAKCJA RZĘSEK NERWOWYCH KOMÓREK SŁUCHOWYCH Ogólna odpowiedź na pobudzenie tonem o częstotliwości 2khz o długości 5ms a następnie 200ms Widoczny jest określony czas relaksacji, co wykorzystywane jest w maskowaniu czasowym.

PORÓWNANIE SYGNAŁÓW: ANALIZOWANEGO i SYNTEZOWANEGO „MASKOWANIE CZASOWE” SKŁADOWYCH PORÓWNANIE SYGNAŁÓW: ANALIZOWANEGO i SYNTEZOWANEGO ZOBRAZOWANIE EFEKTÓW METODY „CZASOWEGO MASKOWANIA” Kształt przebiegu czasowego został zachowany, różnice dotyczą jedynie w niewielkim stopniu amplitudy. Wybrane zostały tylko składowe mające kluczowy wpływ na kształt sygnału mowy. Usunięto nadmiarowość widmową. Możliwa jest oszczędna metoda kodowania (run-length) ilość zerowych składowych kodowana jest na 7bitach

MOWA DŹWIĘCZNA A BEZDŹWIĘCZNA

TRAKT GŁOSOWY JAKO FILTR W celu redukcji stopnia złożoności obliczeniowej lepiej zastosować filtr typu IIR o minimum 8 biegunach (miejsca zerowe wielomianu w mianowniku transmitancji) ponieważ charakterystyka częstotliwościowa traktu głosowego ma do 4 maksimów lokalnych (formantów). Alternatywą dla IIR byłby FIR o ponad 100 współczynnikach.

TON KRTANIOWY (PODSTAWOWY) PITCH U MĘŻCZYZN: częstotliwość waha się w przedziale 80-480 herców (bas, baryton, tenor) U KOBIET: częstotliwość waha się w przedziale 160-960 herców (alt, mezzosopran, sopran) Podczas zwykłej rozmowy zakres jej zmian nie jest duży, ale zauważalny i związany z intonacją. Inaczej sytuacja wygląda podczas śpiewu. Ton krtaniowy można wykryć za pomocą metod analizy fragmentu mowy: Metoda funkcji autokorelacji Metoda AMDF (ang. Average Magnitude Difference Function) Metoda cepstralna

METODA AUTOKORELACJI a AMDF Dla k>Ko gdzie Ko=fpr/ft WARUNEK BEZDŹWIĘCZNOŚCI Pierwsze maksimum lokalne r(k)<[0,3 ÷ 0,35]r(0) WARUNEK BEZDŹWIĘCZNOŚCI

METODA CEPSTRALNA Cepstrum z definicji jest odwrotną transformatą Fouriera log-obwiedni widma. Widmo jest symetryczne horyzontalnie zatem wszystkie składowe sinusoidalne po IDFT maja wartość zero, zatem IDFT może być następnie poddane DCT (dyskretną kosinusową transformatą).

ULEPSZENIE METODY AUTOKORELACJI

MODEL GENERACJI SYGNAŁU MOWY

PROSTY KODEK LPC-10 (możliwa 27-krotna kompresja)

PODSUMOWANIE Najbardziej krytycznym czynnikiem w odbiorze dźwięku jest fakt, że ludzki aparat słuchowy jest stratnym koderem, przekazującym informację do mózgu. Zatem głównym zagadnieniem staje się opracowanie efektywnego odwzorowania tego stratnego procesu i wykorzystanie go do „oszukania słuchu”. Jeśli nawet do perfekcyjnego dźwięku dodamy trochę szumu i zakłóceń, ale będą one „ukryte” w widmowym i czasowym obszarze maskowania to nadal będzie on brzmieć perfekcyjnie. Zatem mając na uwadze sposób przetwarzania dźwięku przez ludzki system słuchowy postępujmy zgodnie z zasadą: „DOPASOWUJ SYGNAŁY DO DOCELOWEGO ODBIORCY”