Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl Dwięk w multimediach Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl Wykład 7.

Podobne prezentacje


Prezentacja na temat: "Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl Dwięk w multimediach Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl Wykład 7."— Zapis prezentacji:

1 Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl
Dwięk w multimediach Ryszard Gubrynowicz Wykład 7

2 Jak stany emocjonalne znajdują swoje odbicie w mowie ?

3 Interpretacja aktorska
happy sad angry interested bored

4 Funkcje emocjonalne cech prozodycznych
Słuchacz na ogół kontroluje w wypowiedzi swój stan emocjonalny. W jego wyrażeniu posługuje się przede wszystkim tempem mówienia, głośnością, wprowadzaniem dodatkowych pauz, przedłużaniem niektórych dźwięków, a także modulowaniem melodii. W wypowiedziach nacechowanych emocjonalnie wahania melodii są znacznie większe, niż w wypowiedziach o charakterze neutralnym. Neutralne – 3-4 tony, z dużym ładunkiem emocjonalnym - > 1 oktawy.

5 Przykład opozycji szczęśliwy – smutny w konturze melodycznym

6 Przykład opozycji szczęśliwy – gniewny w konturze melodycznym

7 Przykład z dialogu typu HMIHY – How may I help you ?
Very Frustrated Somewhat Frustrated

8 Trudności w określaniu emocji
Nadanie wypowiedzi określonego typu emocji jest zadaniem bardzo złożonym. Osoby określające typ wypowiedzi pod względem emocji rzadko są zgodne w swych ocenach, z wyjątkiem krańcowych, lub wyraźnie kontrastowych typów emocji Słuchacze w swojej ocenie głównie opierają się na cechach prozodycznych, zwłaszcza na iloczasach i stylizowanym przebiegu F0.

9 Interkorelacje między emocjami
Emotion sad angry bored frust anxs friend conf happy inter encour 0.44 0.26 0.22 -0.27 -0.32 -0.42 -0.33 0.70 0.21 -0.41 -0.37 -0.09 0.14 -0.14 -0.28 -0.17 frustrated 0.32 -0.43 -0.47 -0.16 -0.39 anxious -0.25 friendly 0.77 0.59 0.75 confident 0.45 0.51 0.58 0.73 interested 0.62 encouraging (p < 0.001)

10 Cechy emocji w sygnale mowy
Prozodia nie uwzględnia jakości głosu, która może również nieść informację o stanie emocjonalnym osoby mówiącej (chrypka, krzyk, szept itp.) czy stylu mówienia (hyperartykulacja, wstawianie wydłużonych pauz…) Wydaje się, że cechy akustyczne emocji mogą być specyficzne dla języka Trudności w jednoznacznym określaniu emocji w sygnale mowy – często niesie równolegle szereg emocji jednocześnie, o podobnym charakterze

11 Emocje w płaszczyźnie subiektywnej

12 Emocje kontrastowe w płaszczyźnie akustycznej
Strach/złość zwiększona prędkość i głośność wypowiedzi podwyższone F0 zwiększony zakres F0 zaburzony rytm mowy dokładniejsza artykulacja zwiększona energia w zakresie wyższych częstotliwości Smutek/odprężenie zmniejszona prędkość i głośność wypowiedzi obniżone F0 zmniejszony zakres F0 wyrównany rytm mowy, płynna mowa niedokładna artykulacja obniżona energia w zakresie wyższych częstotliwości

13 Miary akustyczne emocji
F0: zakres zmian, wartość średnia, nachylenie konturu (w górę/w dół), kształt konturu na sylabach akcentowanych Struktura harmoniczna sygnału: udział szumów przydechowych, laryngalizacja (zwężone impulsy krtaniowe, duża zmienność okresu tonu krtaniowego) Jasność brzmienia: stosunek energii w górnym zakresie częstotliwości do energii w dolnym zakresie Głośność: zakres zmian, wartość średnia, kontur, plozji Iloczasy: pauz, wyrazów, samogłoska/spółgłoska,

14 Wpływ emocji na głos i mowę

15 Cechy mowy emocjonalnej

16 Udział cech mowy w detekcji stanu emocjonalnego - radość
Dla języka niemieckiego F0śred :+50% Zakres zmian F0 :+100% Tempo : +30% Jakość głosu = normalny lub napięty, wskaźnik rozchylenia warg F1/F2:+10%

17 Cechy istotne w detekcji stanu emocjonalnego – złość
Dla języka BE F0śred :+10 Hz Zakres zmian F0 : 9 półtonów Zmiana tempa mowy: +30 słów/min Głośność: +6 dB Jakość głosu: laryngalizacja (+78%) Inne: wzrost F0 na akcentowanych sylabach zależnie od stopnia emocji - 10,20 i 40% (podkreślona)

18 Cechy istotne w detekcji stanu emocjonalnego – smutek
Wg skali oceny subiektywnej – język AE F0śred : „0” linia odniesienia - „-1”, końcowe obniżenie, co najmniej „-5” Zakres zmian F0 : „-1 -5” Zmiana tempa mowy : „-10”, pauzy niezbyt długie „+5”, wahania (pauzy) „+10” Głośność: „-5” Jakość głosu: przydechowy „+10”, jasność „-9” Inne: podniesienie częstotliwości na sylabie akcentowanej „+1”, dokładność artykulacji „-5”

19 Cechy istotne w detekcji stanu emocjonalnego – zdziwienie
Wg skali oceny subiektywnej – język AE F0śred : „0” linia odniesienia - „-8” Zakres zmian F0 : „+8”, skokowe zmiany konturu melodycznego Zmiana tempa mowy : „+4”, pauzy wydłużone „-510” Głośność: „+5” Jakość głosu: jasność „-3”

20 Ranking cech akustycznych emocji
SFFS- Sekwencyjna selekcja podzbioru cech Cecha akustyczna SFFS-Rank Single Perf. F0, maksymalne nachylenie 1 31.5 FO, standardowe odchylenie odległości między przeciwstawnymi sobie punktami 2 23.0 F0, wartość średnia 3 25.6 Sygnał, gęstość przejść przez zero 4 16.9 F0, odchylenie standardowe 5 27.6 Iloczas pauz, wartość średnia 6 17.5 Iloczas głosek dźwięcznych, wartość średnia 7 18.5 Energia, średnia czasu opadania 8 17.8 Energia, średnia odległość między przeciwstawnymi sobie punktami 9 19.0 Energia, średnia czasu narastania 10 17.6

21 Synteza mowy emocjonalnej

22 Mechanizm percepcji dźwięków

23 Układ akustyczny odbiornik - ośrodek - źródło
Trzy zasadnicze działy tematyczne będące przedmiotem wykładów DSM: akustyka mowy (z podstawami akustyki), propagacja dźwięku w otoczeniu (ośrodku), budowa narządu słuchu i percepcja dźwięku.

24 Narząd słuchu W systemie percepcji dźwięków można wyróżnić 2 zasadnicze – układ peryferyjny słuchu i układ nerwowy tego narządu poprzez który dokonywane jest przetwarzanie bodźców na wyższych piętrach układu nerwowego (w mózgu). W narządzie słuchu dokonywane jest przetwarzanie zmian ciśnienia akustycznego na rozkład drgań na błonie podstawnej, który jest przekształcany na odpowiednie serie impulsów pobudzających nerw słuchowy. Informacje o odbieranych sygnałach docierających do narządu słuch są ekstrahowane na różnych poziomach układu nerwowego.

25 Anatomia narządu słuchu

26 Zasadnicze elementy narządu słuchu

27 Schemat funkcjonalny organu słuchu

28 Charakterystyka częstotliwościowa ucha zewnętrznego
Charakterystyka małżowiny – kąt 450

29 Ucho środkowe (przekrój)
1 – młoteczek 2 – kowadełko 3 – strzemiączko 4 – błona bębenkowa 5 – okienko okrągłe 6 – trąbka Eustachiusza (łączy z częścią gardłowo-nosową)

30 Ucho środkowe (od wewnątrz)
1 – młoteczek, 2 – jego ścięgno 3 – kowadełko, 4 – jego ścięgno 6 – stopa strzemiączka, 5 – mięsień strzemiączka 7 – błona bębenkowa Układ kosteczek słuchowych (1,3,6) jest układem mechanicznym dopasowującym drgania w powietrzu do drgań w płynie którym jest wypełnione ucho wewnętrzne. Bez tego układu 98% energii akustycznej uległoby odbiciu.

31

32 Funkcje kosteczek słuchowych
swoistego rodzaju układ przekładni mechanicznej dopasowujący drgania w powietrzu do drgań w cieczy. Zamienia duży ruch tłoka o dużej powierzchni (błona bębenkowa) na mały ruch tłoka o małej powierzchni (podstawa strzemiączka w okienku owalnym). Wzmocnienie siły wynosi 27 razy. Transmisja dźwięków jest najskuteczniejsza w przedziale częstotliwości Hz. układ zabezpieczający – powyżej 90 dB(<1-2 kHz), następuje wzrost napięcia mięśni usztywniających układ kosteczek, w wyniku czego następuje ograniczenie przepływu energii akustycznej (odruch strzemiączkowy). Odruch ten jest zbyt wolny by chronić ucho przed hałasem impulsowym, np. wystrzał z broni palnej, gwałtowne pęknięcie ABS.

33 Jak działa ucho środkowe ?
Niska częstotliwość fali docierającej do ucha Wysoka częstotliwość fali docierającej do ucha Strzemiączko jest tłokiem umieszczonym w ścianie kostnej ucha wewnętrznego (w okienku owalnym). Tłok pobudza do drgań nieściśliwą ciecz wypełniającą przestrzenie ucha wewnętrznego.

34 Praca układu kosteczek ucha środkowego

35 Wzmocnienie w uchu środkowym
Występują tu dwa efekty – efekt wzmocnienia tłokowego (S1 /S2 ) ≈ 20 . S1 = 0.6 cm2 Efekt dźwigni (kosteczki) - d1/d2=1.3 Łączne wzmocnienie = 26 (28 dB)

36 Charakterystyka transmitancji ucha środkowego

37 Funkcje transmitancji ucha zewnętrznego i środkowego
Zewnętrzny przewód słuchowy (o długości 2-3 cm, średnica 1 cm) ma skomplikowaną geometrię, co powoduje, że w jego charakterystyce transmitancji występuje szereg rezonansów (ok. 6) w zakresie od 3 do 12 kHz. Małżowina uszna wspomaga kierunkowe słyszenie dźwięków. Funkcja transmitancji ucha środkowego ma jeden dominujący rezonans w pobliżu 1 kHz. Razem, obie części narządu słuchu kształtują częstotliwościową charakterystykę czułości słuchu z szerokim maksimum położonym w pobliżu 3 kHz.

38 Porównanie charakterystyki czułości słuchu z łączną charakterystyką ucha zewnętrznego i środkowego
Ucho wewnętrzne działa jak swoistego rodzaju detektor poziomu o stałym poziomie detekcji

39 Budowa ślimaka 1 – kanał ślimakowy, 2 – schody przedsionka 3 – schody bębenka, 4 – zwój nerwowy 5 – nerw słuchowy 5 mm Ślimak płodu (5 mies) – 2,5 zwojów o – okienko owalne, r – okienko okrągłe (struktura kostna usunięta)

40

41

42 The organ of Corti Compte aquesta ampliació: està al revés que la de la pantalla anterior!! Al clicar sobre la membrana tectòria surt el text Al clicar sobre la membrana basilar surt el text i la diapo següent Al clicar sobre les cèl.lules ciliades (en groc) apareix la diapo 4. Basilar membrane: it moves according to the pressure wave induced by the movement of the eardrum on the oval window Auditory nerve axons VIII cranial nerve

43 Hair cells Two groups of hair cells: 1 row of Inner Hair Cells (IHC)and 3 rows of Outer Hair Cells (OHC) Hair cells have stereocilia or “hairs” at their top. Their height increases progressively along the cell. The longest is called “kinocilium” AL clicar en les cèl.lules del dibuixet de l’organ de corti surtirà la part del mig amb les cèl.lules ampliades Al clicar a les internes o externes, surt el text d’abaix amb la funció Quan es cliqui a sobre de qualsevol cili (els pèls): pantalla següent inner outer IHC connect to 90-95% of afferent auditory fibers OHC are mostly efferent: top-down information modulates their response

44 1. Movement of basilar membrane
Dynamics of hair cells 2. Hair cell movement: increasing tension opens the ionic channels in the hair cells. An ionic exchange happens 1. Movement of basilar membrane 3. Receptor potential. Depolarization because of the entry of Potassium ions (K+) and subsequent entry of Calcium ions (Ca++) Anar afegint cada pas. El dels canals de K+ ha ser sortir després del pas 3. Després del punt 4, sortirà en detall en la següent pantalla 4. Synaptic vesicles release a neurotransmitter (glutamate), triggering the nervous impulse

45 Długość membrany podstawnej – ~35mm
Pobudzanie ślimaka Długość membrany podstawnej – ~35mm

46 Drgania membrany podstawnej
Przebieg sinusoidalny niskiej częstotliwości Przebieg sinusoidalny o wysokiej częstotliwości Membrana tu drga niemal na całej swej długości Tu membrana drga tylko do określonego miejsca

47 Rozkład drgań na membranie podstawnej – 100 Hz

48 Rozkład drgań na membranie podstawnej – 400 Hz

49 Rozkład drgań na membranie podstawnej – 1200 Hz

50 Rozkład drgań na membranie podstawnej – 4800 Hz

51 Drgania membrany podstawnej przy pobudzeniu tonem sinusoidalnym
podstawa osklepek Dźwięki o różnych częstotliwościach wywołują maksymalny ruch membrany w jej różnych miejscach. W ten sposób powstaje przełożenie częstotliwości dźwięku na miejsce i dalej na odpowiednio zróżnicowanej odpowiedzi neuronów.

52 Pobudzanie membrany podstawnej przez dźwięk złożony

53 Przekrój zwoju ślimaka

54 Przekrój zwoju ślimakowego
Schody przedsionka Organ Cortiego Schody bębenka 4 – błona Reisnera, 5 – membrana podstawna, 6 – błona pokrywkowa

55 Schemat organu Cortiego
1- wewnętrzne komórki rzęskowe 2- zewnętrzne komórki rzęskowe 3- tunel Cortiego 4- membrana podstawna 5- błona siateczkowata 6- błona pokrywkowa 7- komórki Deitersa 8- przestrzeń Nuela 9- komórki Hensena Drgający ruch struktur organu Cortiego wywołuje pobudzenie neuronów, co powoduje, że słyszymy dźwięk

56 Organ Cortiego i włókna nerwowe
Graeme Clark The Bionic Ear Institute Zewnętrzne k. rz. Wewnętrzne k. rz. Każda komórka rzęskowa pobudza około 20 neuronów. Odśrodkowe nerwy słuchowe mózg Blona podstawna

57 Płyny w ślimaku 3 zwoje ślimaka są wypełnione płynami – endolimfą i perylimfą. Mają one zasadnicze znaczenie dla działania komórek rzęskowych, które wytwarzają impulsy elektryczne Różnice w składzie jonowym endolimfy i perylimfy powoduje powstanie między nimi różnicy napięć około 80 mV.

58 Komórki rzęskowe zewnętrzne i wewnętrzne
W ślimaku jest wewnętrznych komórek rzęskowych i zewnętrznych. Jest to znikoma ilość w porównaniu z receptorami narządu wzroku

59 Funkcje komórek rzęskowych
Komórki rzęskowe wewnętrzne są przymocowane do doprowadzających włókien nerwu ślimakowego i ich funkcją jako „rzeczywistych komórek słuchowych” jest zamiana informacji akustycznej na sygnały nerwowe. Komórki rzęskowe zewnętrzne są w przeważającym stopniu stymulowane przez włókna odprowadzające nerwu ślimakowego i często są opisywane jako „silnik” ślimakowego wzmacniacza. Ich zadaniem jest spowodowanie, aby maksymalne uwypuklenie błony podstawnej było bardziej wyraźne tak, aby komórki rzęskowe wewnętrzne to zarejestrowały. Tak więc komórki rzęskowe zewnętrzne służą jedynie do tego by wzmocnić wędrującą falę, podczas gdy komórki rzęskowe wewnętrzne zamieniają bodźce mechaniczne na potencjał bioelektryczny.

60 Efekt współdziałania zewnętrznych i wewnętrznych komórek rzęskowych
Tylko dzięki współdziałaniu i wzajemnym oddziaływaniu komórek rzęskowych wewnętrznych i zewnętrznych ucho posiada tak niski próg słyszenia (= podwyższenie amplitudy wędrującej fali) i taką czułość w rozróżnianiu częstotliwości(=strome przesunięcie wędrującej fali).

61 Uszkodzona komórka rzęskowa zewnętrzna
zewnętrzne wewnętrzne Uszkodzona komórka rz.

62 Przestrzenny rozkład drgań w błonie podstawnej
osklepek podstawa Okienko owalne Kierunek rozchodzenia się fali bieżącej

63 Rozkład komórek rzęskowych na błonie podstawnej
type 1 Tonotopy type 2

64 Nerwy słuchowe w uchu wewnętrznym
Ludzki włos Zewnętrzne k.rz. 60 µm Wewnętrzne k.rz. Błona siateczkowata Spiralny zwój nerwowy 20 µm Wise et al, The Bionic Ear Institute, 2003.

65 Mechaniczne i elektryczne własności komórek rzęskowych
Przy podstawie (bliżej okienka owalnego) komórki rzęskowe rozmieszczone wzdłuż błony podstawnej są odpowiednio dostrojone częstotliwościowo elektrycznie jak i mechanicznie. Rzęski przy okienku owalnym są krótsze i sztywniejsze, te bardziej oddalone są dłuższe i bardziej elastyczne. Jednocześnie własności komórek rzęskowych, decydujące o częstotliwości wyładowań elektrycznych własnych, są zgodne z rozmieszczeniem komórek wzdłuż membrany podstawnej. Częstotliwość wyładowań jest zgodna z rozkładem rezonansów błony podstawnej. A każdy neuron ma swoją „częstotliwość charakterystyczną”.

66 Schemat działania organu Cortiego
Rzęski zaczynają wychylać się w dwie strony (wychylenie czubków – 0.3 nm). W tym samym czasie dochodzi do zamykania się i otwierania kanałów jonowych . Dzięki nim z endolimfy ślimaka do wnętrza rzęsek napływają jony potasu. W ten sposób zostają wywołane chwilowe zmiany potencjału. Na zmiany te reagują zakończenia komórek nerwowych, które powstałe pobudzenie przekazują dalej do wyższych pięter układu słuchowego.

67

68 Rozkłady drgań na błony podstawnej w funkcji częstotliwości
Poziom => głośny cichy f= 1000 Hz f= 8000 Hz f= 1000 Hz i 8000 Hz

69 Synchronizacja fazowa
Komórki rzęskowe rozmieszczone wzdłuż błony podstawnej są odpowiednio dostrojone częstotliwościowo elektrycznie, jak i mechanicznie.

70 Synchronizacja fazowa

71 Odpowiedź neuronu słuchowego na dźwięki o niskiej częstotliwości
Odpowiedź pozostaje zsynchronizowana dla dużego zakresu intensywności

72 Synchronizacja fazy z pobudzeniem sinusoidalnym
Dla częstotliwości < 5 kHz, impulsy nerwowe pojawiają się z określoną fazą zgodnie z cyklem sygnału pobudzającego. Wyładowania te nie pojawiają się w każdym cyklu pobudzenia. Jednakże odległość między pojedynczymi impulsami może wynosić 2,3 lub więcej cykli.

73 Schemat synchronizacji pobudzeń
Schemat pobudzenia neuronu

74 Zsynchronizowana odpowiedź słuchowa
In response to low-frequency (< 5 kHz) pure tones, spike discharges tend to occur at a particular phase within the stimulus cycle. However, spikes do not always occur on every cycle, i.e. there can be 2, 3, or more cycles between consecutive spikes. • Phase locking can be quantified using period histograms, which display the distribution of spikes within a stimulus cycle. With perfect phase locking, the period histogram would be an impulse. Period histograms of AN fibers for low-frequency pure tones are nearly sinusoidal at near-threshold level, and become more peaky at moderate and high levels. • Alternatively, phase locking can be visualized from interspike interval histograms, where it shows up as modes at integer multiples of the stimulus period, i.e. at 1/f, 2/f, 3/f, etc for a pure tone of frequency f. This analysis is appealing from the viewpoint of central auditory processing because, unlike period histograms, it does not require an absolute time reference locked to each stimulus cycle. Zsynchronizowana odpowiedź słuchowa Włókna nerwowe synchronizują swoją odpowiedź w celu jej wyostrzenia w zakresie niskich częstotliwości i wygładzenia obwiedni w zakresie wysokich częstotliwości Synchroniczność odgrywa istotną rolę w procesie lokalizacji źródeł dźwięków

75 Zakres dynamiczny słyszenia
Im większa jest liczba impulsów/s tym większe wrażenie głośności Im większa jest liczba pobudzonych zakończeń nerwowych, tym dźwięk jest odbierany jako głośniejszy

76 Częstotliwościowa czułość słuchu
Pomiar dla pojedynczego nerwu. Charakterystyka jest symetryczna w skali log f.

77 Odpowiedź włókna nerwowego na 2 tony
Pojawienie się tonu w strefie zakreskowanej powoduje zmniejszenie się liczby impulsów odpowiadającej tonowi testowemu, co zwiększa lokalny kontrast częstotliwości.

78 Częstotliwościowa zależność poziomu progowego włókien nerwowych
Szerokość pasma zależy od częstotliwości środkowej . Częstotliwościowe zakresy odpowiedzi są asymetryczne.

79 Membrana podstawna – rozkład częstotliwości
Od osklepka (szczytu) w kierunku podstawy błony podstawnej rozkład miejsc pobudzeń zmienia się proporcjonalnie do logarytmu częstotliwości

80 Membrana podstawna – rozkład częstotliwości pobudzeń
Znaczna część długości błony podstawnej reaguje na niższy zakres częstotliwości (zakres F1 w mowie), przy czym większość odpowiedzi neuronów jest w zakresie poniżej środkowych częstotliwości (2-3 kHz).

81 Słuch, mowa w korze mózgowej
Ośrodek Wernickego – słuchowy ośrodek mowy Obszar Broca – okolica ruchowa mowy

82 Kodowanie częstotliwości w mózgu
Graeme Clark The Bionic Ear Institute 20 10 5 2 pole słuchowe 5 kHz 2 kHz 10 kHz ślimak 20 kHz

83

84 Implant ślimakowy – część zewnętrzna
1. mikrofon 2. przewód doprowadzający 3. procesor mowy 4 cewka odbiorcza 5. cewka odbiorcza wysyłająca poprzez skórę sygnały FM do implantowanego odbiornika pobudzającego 6. odbiornik pobudzający 7. elektrody pobudzające zakończenia nerwu słuchowego w ślimaku 8. nerw słuchowy

85 Implant ślimakowy – część wewnętrzna

86 Elektrody implantu ślimakowego

87 Wymiary elektrod 0.45mm 0.3mm

88 Powierzchnia elektrod
Procedura SPEAK 20-kanałowy zestaw filtrów pasmowych Sygnał mowy /a/ Powierzchnia elektrod podstawa osklepek 6 maksymalnych napięć Widmo chwilowe

89 Symulacja działania implantu ślimakowego
From herrick_uedamodel/script_demo1: best 6 of 16 channels, 250 Hz pulserate, 16 kHz sampling H/U filterbank

90 Wpływ liczby kanałów pobudzających na zrozumiałość mowy
1 2 4 8 16


Pobierz ppt "Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl Dwięk w multimediach Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl Wykład 7."

Podobne prezentacje


Reklamy Google