Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Dwięk w multimediach Ryszard Gubrynowicz Wykład 7 1.

Podobne prezentacje


Prezentacja na temat: "Dwięk w multimediach Ryszard Gubrynowicz Wykład 7 1."— Zapis prezentacji:

1

2 Dwięk w multimediach Ryszard Gubrynowicz Wykład 7 1

3 Jak stany emocjonalne znajdują swoje odbicie w mowie ? 2

4 3 happy sad angry interested bored Interpretacja aktorska

5 Funkcje emocjonalne cech prozodycznych Słuchacz na ogół kontroluje w wypowiedzi swój stan emocjonalny. W jego wyrażeniu posługuje się przede wszystkim tempem mówienia, głośnością, wprowadzaniem dodatkowych pauz, przedłużaniem niektórych dźwięków, a także modulowaniem melodii. W wypowiedziach nacechowanych emocjonalnie wahania melodii są znacznie większe, niż w wypowiedziach o charakterze neutralnym. Neutralne – 3-4 tony, z dużym ładunkiem emocjonalnym - > 1 oktawy. 4

6 5 Przykład opozycji szczęśliwy – smutny w konturze melodycznym

7 Przykład opozycji szczęśliwy – gniewny w konturze melodycznym 6

8 Przykład z dialogu typu HMIHY – How may I help you ? Very Frustrated Somewhat Frustrated 7

9 Trudności w określaniu emocji Nadanie wypowiedzi określonego typu emocji jest zadaniem bardzo złożonym. Osoby określające typ wypowiedzi pod względem emocji rzadko są zgodne w swych ocenach, z wyjątkiem krańcowych, lub wyraźnie kontrastowych typów emocji Słuchacze w swojej ocenie głównie opierają się na cechach prozodycznych, zwłaszcza na iloczasach i stylizowanym przebiegu F0. 8

10 9 Interkorelacje między emocjami Emotionsadangryboredfrustanxsfriendconfhappyinterencour sad angry bored frustrated anxious friendly confident happy interested 0.62 encouraging (p < 0.001)

11 Cechy emocji w sygnale mowy Prozodia nie uwzględnia jakości głosu, która może również nieść informację o stanie emocjonalnym osoby mówiącej (chrypka, krzyk, szept itp.) czy stylu mówienia (hyperartykulacja, wstawianie wydłużonych pauz…) Wydaje się, że cechy akustyczne emocji mogą być specyficzne dla języka Trudności w jednoznacznym określaniu emocji w sygnale mowy – często niesie równolegle szereg emocji jednocześnie, o podobnym charakterze 10

12 11 Emocje w płaszczyźnie subiektywnej

13 12 Strach/złość -zwiększona prędkość i głośność wypowiedzi -podwyższone F0 -zwiększony zakres F0 -zaburzony rytm mowy -dokładniejsza artykulacja -zwiększona energia w zakresie wyższych częstotliwości Smutek/odprężenie -zmniejszona prędkość i głośność wypowiedzi -obniżone F0 -zmniejszony zakres F0 -wyrównany rytm mowy, płynna mowa -niedokładna artykulacja -obniżona energia w zakresie wyższych częstotliwości Emocje kontrastowe w płaszczyźnie akustycznej

14 13 Miary akustyczne emocji F0: zakres zmian, wartość średnia, nachylenie konturu (w górę/w dół), kształt konturu na sylabach akcentowanych Struktura harmoniczna sygnału: udział szumów przydechowych, laryngalizacja (zwężone impulsy krtaniowe, duża zmienność okresu tonu krtaniowego) Jasność brzmienia: stosunek energii w górnym zakresie częstotliwości do energii w dolnym zakresie Głośność: zakres zmian, wartość średnia, kontur, plozji Iloczasy: pauz, wyrazów, samogłoska/spółgłoska,

15 14 Wpływ emocji na głos i mowę

16 15 Cechy mowy emocjonalnej

17 Udział cech mowy w detekcji stanu emocjonalnego - radość 16 F0 śred :+50% Zakres zmian F0 :+100% Tempo : +30% Jakość głosu = normalny lub napięty, wskaźnik rozchylenia warg F1/F2:+10% Dla języka niemieckiego

18 Cechy istotne w detekcji stanu emocjonalnego – złość 17 Dla języka BE F0 śred :+10 Hz Zakres zmian F0 : 9 półtonów Zmiana tempa mowy: +30 słów/min Głośność: +6 dB Jakość głosu: laryngalizacja (+78%) Inne: wzrost F0 na akcentowanych sylabach zależnie od stopnia emocji - 10,20 i 40% (podkreślona)

19 Cechy istotne w detekcji stanu emocjonalnego – smutek 18 F0 śred : 0 linia odniesienia - -1, końcowe obniżenie, co najmniej -5 Zakres zmian F0 : Zmiana tempa mowy : -10, pauzy niezbyt długie +5, wahania (pauzy) +10 Głośność: -5 Jakość głosu: przydechowy +10, jasność -9 Inne: podniesienie częstotliwości na sylabie akcentowanej +1, dokładność artykulacji -5 Wg skali oceny subiektywnej – język AE

20 Cechy istotne w detekcji stanu emocjonalnego – zdziwienie 19 Wg skali oceny subiektywnej – język AE F0 śred : 0 linia odniesienia - -8 Zakres zmian F0 : +8, skokowe zmiany konturu melodycznego Zmiana tempa mowy : +4, pauzy wydłużone -510 Głośność: +5 Jakość głosu: jasność -3

21 Ranking cech akustycznych emocji Cecha akustycznaSFFS-RankSingle Perf. F0, maksymalne nachylenie131.5 FO, standardowe odchylenie odległości między przeciwstawnymi sobie punktami F0, wartość średnia325.6 Sygnał, gęstość przejść przez zero416.9 F0, odchylenie standardowe527.6 Iloczas pauz, wartość średnia617.5 Iloczas głosek dźwięcznych, wartość średnia718.5 Energia, średnia czasu opadania817.8 Energia, średnia odległość między przeciwstawnymi sobie punktami Energia, średnia czasu narastania SFFS- Sekwencyjna selekcja podzbioru cech

22 Synteza mowy emocjonalnej 21

23 Mechanizm percepcji dźwięków 22

24 23 Układ akustyczny odbiornik - ośrodek - źródło

25 Narząd słuchu W systemie percepcji dźwięków można wyróżnić 2 zasadnicze – układ peryferyjny słuchu i układ nerwowy tego narządu poprzez który dokonywane jest przetwarzanie bodźców na wyższych piętrach układu nerwowego (w mózgu). W narządzie słuchu dokonywane jest przetwarzanie zmian ciśnienia akustycznego na rozkład drgań na błonie podstawnej, który jest przekształcany na odpowiednie serie impulsów pobudzających nerw słuchowy. Informacje o odbieranych sygnałach docierających do narządu słuch są ekstrahowane na różnych poziomach układu nerwowego. 24

26 Anatomia narządu słuchu 25

27 Zasadnicze elementy narządu słuchu 26

28 Schemat funkcjonalny organu słuchu 27

29 Charakterystyka częstotliwościowa ucha zewnętrznego 28 Charakterystyka małżowiny – kąt 45 0

30 Ucho środkowe (przekrój) 1 – młoteczek 2 – kowadełko 3 – strzemiączko 4 – błona bębenkowa 5 – okienko okrągłe 6 – trąbka Eustachiusza (łączy z częścią gardłowo- nosową) 29

31 Ucho środkowe (od wewnątrz) 1 – młoteczek, 2 – jego ścięgno 3 – kowadełko, 4 – jego ścięgno 6 – stopa strzemiączka, 5 – mięsień strzemiączka 7 – błona bębenkowa Układ kosteczek słuchowych (1,3,6) jest układem mechanicznym dopasowującym drgania w powietrzu do drgań w płynie którym jest wypełnione ucho wewnętrzne. Bez tego układu 98% energii akustycznej uległoby odbiciu. 30

32 31

33 Funkcje kosteczek słuchowych swoistego rodzaju układ przekładni mechanicznej dopasowujący drgania w powietrzu do drgań w cieczy. Zamienia duży ruch tłoka o dużej powierzchni (błona bębenkowa) na mały ruch tłoka o małej powierzchni (podstawa strzemiączka w okienku owalnym). Wzmocnienie siły wynosi 27 razy. Transmisja dźwięków jest najskuteczniejsza w przedziale częstotliwości Hz. układ zabezpieczający – powyżej 90 dB (<1-2 kHz), następuje wzrost napięcia mięśni usztywniających układ kosteczek, w wyniku czego następuje ograniczenie przepływu energii akustycznej (odruch strzemiączkowy). Odruch ten jest zbyt wolny by chronić ucho przed hałasem impulsowym, np. wystrzał z broni palnej, gwałtowne pęknięcie ABS. 32

34 Jak działa ucho środkowe ? Strzemiączko jest tłokiem umieszczonym w ścianie kostnej ucha wewnętrznego (w okienku owalnym). Tłok pobudza do drgań nieściśliwą ciecz wypełniającą przestrzenie ucha wewnętrznego. Niska częstotliwość fali docierającej do ucha Wysoka częstotliwość fali docierającej do ucha 33

35 Praca układu kosteczek ucha środkowego 34

36 Wzmocnienie w uchu środkowym 35 Występują tu dwa efekty – efekt wzmocnienia tłokowego (S 1 /S 2 ) 20. S 1 = 0.6 cm 2 Efekt dźwigni (kosteczki) - d1/d2=1.3 Łączne wzmocnienie = 26 (28 dB)

37 Charakterystyka transmitancji ucha środkowego 36

38 Funkcje transmitancji ucha zewnętrznego i środkowego Zewnętrzny przewód słuchowy (o długości 2-3 cm, średnica 1 cm) ma skomplikowaną geometrię, co powoduje, że w jego charakterystyce transmitancji występuje szereg rezonansów (ok. 6) w zakresie od 3 do 12 kHz. Małżowina uszna wspomaga kierunkowe słyszenie dźwięków. Funkcja transmitancji ucha środkowego ma jeden dominujący rezonans w pobliżu 1 kHz. Razem, obie części narządu słuchu kształtują częstotliwościową charakterystykę czułości słuchu z szerokim maksimum położonym w pobliżu 3 kHz. 37

39 Porównanie charakterystyki czułości słuchu z łączną charakterystyką ucha zewnętrznego i środkowego 38 Ucho wewnętrzne działa jak swoistego rodzaju detektor poziomu o stałym poziomie detekcji

40 Budowa ślimaka Ślimak płodu (5 mies) – 2,5 zwojów o – okienko owalne, r – okienko okrągłe (struktura kostna usunięta) 5 mm 1 – kanał ślimakowy, 2 – schody przedsionka 3 – schody bębenka, 4 – zwój nerwowy 5 – nerw słuchowy 39

41 40

42 41

43 Basilar membrane: it moves according to the pressure wave induced by the movement of the eardrum on the oval window Auditory nerve axons VIII cranial nerve The organ of Corti

44 inner outer Two groups of hair cells: 1 row of Inner Hair Cells (IHC)and 3 rows of Outer Hair Cells (OHC) IHC connect to 90-95% of afferent auditory fibers OHC are mostly efferent: top-down information modulates their response Hair cells have stereocilia or hairs at their top. Their height increases progressively along the cell. The longest is called kinocilium Hair cells

45 1. Movement of basilar membrane 3. Receptor potential. Depolarization because of the entry of Potassium ions (K+) and subsequent entry of Calcium ions (Ca++) 4. Synaptic vesicles release a neurotransmitter (glutamate), triggering the nervous impulse 2. Hair cell movement: increasing tension opens the ionic channels in the hair cells. An ionic exchange happens Dynamics of hair cells

46 Pobudzanie ślimaka Długość membrany podstawnej – ~35mm 45

47 Drgania membrany podstawnej Przebieg sinusoidalny niskiej częstotliwości Przebieg sinusoidalny o wysokiej częstotliwości Membrana tu drga niemal na całej swej długości Tu membrana drga tylko do określonego miejsca 46

48 Rozkład drgań na membranie podstawnej – 100 Hz 47

49 Rozkład drgań na membranie podstawnej – 400 Hz 48

50 Rozkład drgań na membranie podstawnej – 1200 Hz 49

51 Rozkład drgań na membranie podstawnej – 4800 Hz 50

52 Drgania membrany podstawnej przy pobudzeniu tonem sinusoidalnym Dźwięki o różnych częstotliwościach wywołują maksymalny ruch membrany w jej różnych miejscach. W ten sposób powstaje przełożenie częstotliwości dźwięku na miejsce i dalej na odpowiednio zróżnicowanej odpowiedzi neuronów. podstawaosklepek 51

53 Pobudzanie membrany podstawnej przez dźwięk złożony 52

54 Przekrój zwoju ślimaka 53

55 Przekrój zwoju ślimakowego 4 – błona Reisnera, 5 – membrana podstawna, 6 – błona pokrywkowa Organ Cortiego Schody przedsionka Schody bębenka 54

56 Schemat organu Cortiego 1- wewnętrzne komórki rzęskowe 2- zewnętrzne komórki rzęskowe 3- tunel Cortiego 4- membrana podstawna 5- błona siateczkowata 6- błona pokrywkowa 7- komórki Deitersa 8- przestrzeń Nuela 9- komórki Hensena Drgający ruch struktur organu Cortiego wywołuje pobudzenie neuronów, co powoduje, że słyszymy dźwięk 55

57 Blona podstawna Odśrodkowe nerwy słuchowe mózg Zewnętrzne k. rz. Wewnętrzne k. rz. Organ Cortiego i włókna nerwowe Graeme Clark The Bionic Ear Institute 56

58 Płyny w ślimaku 3 zwoje ślimaka są wypełnione płynami – endolimfą i perylimfą. Mają one zasadnicze znaczenie dla działania komórek rzęskowych, które wytwarzają impulsy elektryczne Różnice w składzie jonowym endolimfy i perylimfy powoduje powstanie między nimi różnicy napięć około 80 mV. 57

59 Komórki rzęskowe zewnętrzne i wewnętrzne zewnętrzne wewnętrzne W ślimaku jest wewnętrznych komórek rzęskowych i zewnętrznych. Jest to znikoma ilość w porównaniu z receptorami narządu wzroku 58

60 Funkcje komórek rzęskowych 59 Komórki rzęskowe wewnętrzne są przymocowane do doprowadzających włókien nerwu ślimakowego i ich funkcją jako rzeczywistych komórek słuchowych jest zamiana informacji akustycznej na sygnały nerwowe. Komórki rzęskowe zewnętrzne są w przeważającym stopniu stymulowane przez włókna odprowadzające nerwu ślimakowego i często są opisywane jako silnik ślimakowego wzmacniacza. Ich zadaniem jest spowodowanie, aby maksymalne uwypuklenie błony podstawnej było bardziej wyraźne tak, aby komórki rzęskowe wewnętrzne to zarejestrowały. Tak więc komórki rzęskowe zewnętrzne służą jedynie do tego by wzmocnić wędrującą falę, podczas gdy komórki rzęskowe wewnętrzne zamieniają bodźce mechaniczne na potencjał bioelektryczny.

61 Efekt współdziałania zewnętrznych i wewnętrznych komórek rzęskowych 60 Tylko dzięki współdziałaniu i wzajemnym oddziaływaniu komórek rzęskowych wewnętrznych i zewnętrznych ucho posiada tak niski próg słyszenia (= podwyższenie amplitudy wędrującej fali) i taką czułość w rozróżnianiu częstotliwości(=strome przesunięcie wędrującej fali).

62 Uszkodzona komórka rzęskowa zewnętrzna zewnętrzne wewnętrzne Uszkodzona komórka rz. 61

63 Przestrzenny rozkład drgań w błonie podstawnej 62 osklepek podstawa Okienko owalne Kierunek rozchodzenia się fali bieżącej

64 Rozkład komórek rzęskowych na błonie podstawnej type 1 type 2 Tonotopy

65 Nerwy słuchowe w uchu wewnętrznym Błona siateczkowata Wise et al, The Bionic Ear Institute, µm Ludzki włos 60 µm Spiralny zwój nerwowy Zewnętrzne k.rz. Wewnętrzne k.rz. 64

66 65 Mechaniczne i elektryczne własności komórek rzęskowych Przy podstawie (bliżej okienka owalnego) komórki rzęskowe rozmieszczone wzdłuż błony podstawnej są odpowiednio dostrojone częstotliwościowo elektrycznie jak i mechanicznie. Rzęski przy okienku owalnym są krótsze i sztywniejsze, te bardziej oddalone są dłuższe i bardziej elastyczne. Jednocześnie własności komórek rzęskowych, decydujące o częstotliwości wyładowań elektrycznych własnych, są zgodne z rozmieszczeniem komórek wzdłuż membrany podstawnej. Częstotliwość wyładowań jest zgodna z rozkładem rezonansów błony podstawnej. A każdy neuron ma swoją częstotliwość charakterystyczną.

67 Schemat działania organu Cortiego 66 Rzęski zaczynają wychylać się w dwie strony (wychylenie czubków – 0.3 nm). W tym samym czasie dochodzi do zamykania się i otwierania kanałów jonowych. Dzięki nim z endolimfy ślimaka do wnętrza rzęsek napływają jony potasu. W ten sposób zostają wywołane chwilowe zmiany potencjału. Na zmiany te reagują zakończenia komórek nerwowych, które powstałe pobudzenie przekazują dalej do wyższych pięter układu słuchowego.

68 67

69 68 Rozkłady drgań na błony podstawnej w funkcji częstotliwości f= 1000 Hz f= 8000 Hz f= 1000 Hz i 8000 Hz Poziom =>głośny cichy

70 69 Synchronizacja fazowa Komórki rzęskowe rozmieszczone wzdłuż błony podstawnej są odpowiednio dostrojone częstotliwościowo elektrycznie, jak i mechanicznie.

71 Synchronizacja fazowa

72 Odpowiedź neuronu słuchowego na dźwięki o niskiej częstotliwości Odpowiedź pozostaje zsynchronizowana dla dużego zakresu intensywności 71

73 Synchronizacja fazy z pobudzeniem sinusoidalnym Dla częstotliwości < 5 kHz, impulsy nerwowe pojawiają się z określoną fazą zgodnie z cyklem sygnału pobudzającego. Wyładowania te nie pojawiają się w każdym cyklu pobudzenia. Jednakże odległość między pojedynczymi impulsami może wynosić 2,3 lub więcej cykli. 72

74 73 Schemat synchronizacji pobudzeń Schemat pobudzenia neuronu

75 Zsynchronizowana odpowiedź słuchowa Włókna nerwowe synchronizują swoją odpowiedź w celu jej wyostrzenia w zakresie niskich częstotliwości i wygładzenia obwiedni w zakresie wysokich częstotliwości Synchroniczność odgrywa istotną rolę w procesie lokalizacji źródeł dźwięków 74 In response to low-frequency (< 5 kHz) pure tones, spike discharges tend to occur at a particular phase within the stimulus cycle. However, spikes do not always occur on every cycle, i.e. there can be 2, 3, or more cycles between consecutive spikes. Phase locking can be quantified using period histograms, which display the distribution of spikes within a stimulus cycle. With perfect phase locking, the period histogram would be an impulse. Period histograms of AN fibers for low-frequency pure tones are nearly sinusoidal at near-threshold level, and become more peaky at moderate and high levels. Alternatively, phase locking can be visualized from interspike interval histograms, where it shows up as modes at integer multiples of the stimulus period, i.e. at 1/f, 2/f, 3/f, etc for a pure tone of frequency f. This analysis is appealing from the viewpoint of central auditory processing because, unlike period histograms, it does not require an absolute time reference locked to each stimulus cycle.

76 Zakres dynamiczny słyszenia Im większa jest liczba impulsów/s tym większe wrażenie głośności Im większa jest liczba pobudzonych zakończeń nerwowych, tym dźwięk jest odbierany jako głośniejszy 75

77 Częstotliwościowa czułość słuchu Pomiar dla pojedynczego nerwu. Charakterystyka jest symetryczna w skali log f. 76

78 Odpowiedź włókna nerwowego na 2 tony 77 Pojawienie się tonu w strefie zakreskowanej powoduje zmniejszenie się liczby impulsów odpowiadającej tonowi testowemu, co zwiększa lokalny kontrast częstotliwości.

79 Częstotliwościowa zależność poziomu progowego włókien nerwowych 78 Szerokość pasma zależy od częstotliwości środkowej. Częstotliwościowe zakresy odpowiedzi są asymetryczne.

80 79 Membrana podstawna – rozkład częstotliwości Od osklepka (szczytu) w kierunku podstawy błony podstawnej rozkład miejsc pobudzeń zmienia się proporcjonalnie do logarytmu częstotliwości

81 80 Membrana podstawna – rozkład częstotliwości pobudzeń Znaczna część długości błony podstawnej reaguje na niższy zakres częstotliwości (zakres F1 w mowie), przy czym większość odpowiedzi neuronów jest w zakresie poniżej środkowych częstotliwości (2-3 kHz).

82 Słuch, mowa w korze mózgowej 81 Ośrodek Wernickego – słuchowy ośrodek mowy Obszar Broca – okolica ruchowa mowy

83 Kodowanie częstotliwości w mózgu 20 kHz 10 kHz 5 kHz kHz Graeme Clark The Bionic Ear Institute pole słuchowe ślimak 82

84 83

85 Implant ślimakowy – część zewnętrzna 1. mikrofon 2. przewód doprowadzający 3. procesor mowy 4 cewka odbiorcza 5. cewka odbiorcza wysyłająca poprzez skórę sygnały FM do implantowanego odbiornika pobudzającego 6. odbiornik pobudzający 7. elektrody pobudzające zakończenia nerwu słuchowego w ślimaku 8. nerw słuchowy 84

86 Implant ślimakowy – część wewnętrzna 85

87 Elektrody implantu ślimakowego 86

88 Wymiary elektrod 0.3mm 0.45mm 87

89 Procedura SPEAK Widmo chwilowe 20-kanałowy zestaw filtrów pasmowych Sygnał mowy /a/ Powierzchnia elektrod podstawaosklepek 6 maksymalnych napięć 88

90 From herrick_uedamodel/script_demo1: best 6 of 16 channels, 250 Hz pulserate, 16 kHz sampling H/U filterbank Symulacja działania implantu ślimakowego 89

91 Wpływ liczby kanałów pobudzających na zrozumiałość mowy


Pobierz ppt "Dwięk w multimediach Ryszard Gubrynowicz Wykład 7 1."

Podobne prezentacje


Reklamy Google