Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wstęp do Multimediów Słuch. Podstawowe pojęcia z dziedziny akustyki. Charakterystyki słuchu. Pasma krytyczne. Właściwości słyszenia muzyki i mowy Wykład.

Podobne prezentacje


Prezentacja na temat: "Wstęp do Multimediów Słuch. Podstawowe pojęcia z dziedziny akustyki. Charakterystyki słuchu. Pasma krytyczne. Właściwości słyszenia muzyki i mowy Wykład."— Zapis prezentacji:

1 Wstęp do Multimediów Słuch. Podstawowe pojęcia z dziedziny akustyki. Charakterystyki słuchu. Pasma krytyczne. Właściwości słyszenia muzyki i mowy Wykład 3

2 2 Narząd słuchu Ucho – narząd odbierający informację akustyczną i kodujący ją w odpowiednie impulsy neuralne Droga słuchowa – przenosząca zakodowane informacje Pola słuchowe kory mózgowej – miejsce powstawania wrażenia słuchowego

3 3 Budowa ucha - model

4 4 Budowa ucha

5 5

6 6

7 7 external ear canal

8 8 Budowa ucha

9 9

10 10 Budowa ucha

11 11 Budowa ucha Inner ear semicircular canals

12 12 Budowa ucha Źródło:

13 13 Budowa ucha Ucho zewnętrzne: małżowina i kanał słuchowy –Kanał słuchowy można rozpatrywać w przybliżeniu jako kanał otwarto-zamknięty –Małżowina i kanał słuchowy wpływają na (filtrują) dźwięk z powodu swojego charakterystycznego kształtu human eardrum dampens the resonance peaks and antiresonance notches caused by the ear canal J. Audio Eng. Soc., Vol. 58, No. 4, 2010 p.271 Ucho środkowe: błona bębenkowa i kosteczki słuchowe –Kosteczki słuchowe: młoteczek, kowadełko, strzemiączko –Działają jak przetwornik mechaniczny, konwertujący ciśnienie działające na błonę bębenkową na ciśnienie działające na okienko owalne, ze współczynnikiem wzmocnienia do 30 razy Większa część wzmocnienia jest spowodowana różnicą powierzchni (błony b. i okienka) – ok. 20 razy Dźwignia kosteczek – ok. 1.5 raza

14 14 Budowa ucha Ucho wewnętrzne: –Kanały półkoliste kontrolują równowagę człowieka –Ślimak przekształca zmiany ciśnienia w impulsy nerwowe –Ok komórek rzęsatych na błonie podstawnej o dł. ok. 37 mm –Każda komórka ma wiele rzęsek, falujących pod wpływem wibracji błony podstawnej –Detekcja wysokich częstotliwości następuje wzdłuż sztywnej części błony (najbliższej okienka owalnego) –Detekcja niskich częstotliwości następuje następuje w pobliżu drugiego końca błony –Istotne jest również przewodnictwo kostne do ucha wewnętrznego –Włókna nerwu słuchowego są “nastrojone” na różne częstotliwości środkowe

15 15 Słuch i inne zmysły media.org/ /tutorials/126_T7_ Schulein/; AuditoryTransduction – animacja (słuch)http://www.aes- media.org/ /tutorials/126_T7_ Schulein/ Sensor processing: SenseCapacity b/s Sight10.000,000 Hearing Skin(feel) Taste1.000 Smell Total

16 16 Ucho

17 17 Ucho

18 18 Budowa ucha - przekrój

19 19 Budowa ucha – przekrój ślimaka 1. Zwój nerwu ślimakowego, 2. Włókna nerwu śl., 3. Blaszka spiralna kostna, 4. Przewód ślimakowy, 5. Schody przedsionka, 6. Schody bębenka, 7. Błona podstawna, 8. Narząd Cortiego, 9. Więzadło spiralne, 10. Prążek naczyniowy, 11. Błona przedsionkowa Reissnera Błona podstawna blisko podstawy ślimaka (przy przy okienku owalnym) jest wąska i sztywna. W kierunku szczytu ślimaka (helicotremy) jest coraz szersza i coraz bardziej elastyczna i w najszerszym miejscu osiąga 3mm szerokości

20 20 Budowa ucha – przekrój ślimaka

21 21 Budowa ucha – przekrój ślimaka W obudowie kostnej ślimaka znajduje się okienko owalne, okryte błoną, połączone ze strzemiączkiem W dolnej części ślimaka znajduje się okienko okrągłe, okryte błoną Schody przedsionka i bębenka łączy szpara osklepka (helikotrema) na szczycie ślimaka –Dźwięk biegnie od o.owalnego przez s.przedsionka do szczytu ślimaka, dalej s.bębenka, do o.okrągłego –Przestrzeń wypełniona perylimfą Narząd Cortiego (w błonie podstawnej) zbudowany jest z komórek receptorowych i podporowych

22 22 Budowa ucha – narząd Cortiego W narządzie Cortiego znajduje się 1 rząd komórek rzęskowych wewnętrznych (około 3500) i 3 (do 5) rzędów komórek zewnętrznych (po około 5000 lub mniej komórek w każdym rzędzie) Każda z komórek wewnętrznych ma ok. 40 tzw. rzęsek formujących proste rzędy –Do każdej z tych komórek dochodzi ok. 20 neuronów aferentnych, przekazujących impulsy elektryczne ze ślimaka na wyższe piętra drogi słuchowej i dalej do mózgu Zewnętrzne komórki rzęskowe uporządkowane są w pięciu rzędach. Jest nich około a każda ma ok. 140 rzęsek uformowanych w kształcie litery V –Do komórek tych dochodzi ok neuronów eferentnych tj. przekazujących sygnały z mózgu

23 23

24 24 Słyszenie – reakcja ucha na dźwięk Drgania błony podstawnej są nieliniowe – sygnał odpowiedzi nie wzrasta proporcjonalnie do sygnału wejściowego Przy pobudzeniu impulsem na błonie podstawnej powstaje i przemieszcza się wzdłuż niej „zaburzenie” – krótki ciąg fal gasnących Częstotliwość oscylacji tych fal koresponduje z częstotliwością charakterystyczną danego punktu błony podstawnej

25 25 Słyszenie – reakcja ucha na dźwięk Reakcja błony podstawnej na pobudzenie impulsowe

26 26 Percepcja głośności sygnału Próg słyszalności (próg absolutny, próg detekcji sygnału) jest najmniejszym poziomem ciśnienia akustycznego dźwięku, który wywołuje zaledwie spostrzegane wrażenie słuchowe wobec braku innych dźwięków Próg słyszalności zależy od częstotliwości sygnału

27 Skala dB –Próg słyszalności (minimalna zmiana ciśnienia wykrywana przez ucho) < ciśnienia atmosferycznego lub 2*10 -5 N/m 2 dla 1000 Hz Dolna granica percepcji Zależna od częstotliwości sygnału –Próg bólu odpowiada ciśnieniu 10 6 większemu, lecz nadal < 1/1000 od ciśnienia atmosferycznego –Z powodu szerokiego zakresu, pomiary ciśnienia dźwięku wykonywane są w skali logarytmicznej (dB)

28 28 SPL SPL - Sound Pressure Level –Sound Pressure Level (SPL)=20 log (p/p 0 )=10 log (p/p 0 ) 2 gdzie p 0 =2*10 -5 N/m 2 –SPL jest proporcjonalny do średniego pierwiastka z amplitudy

29 29 Próg słyszalności Eksperymenty: >20kHz (nawet 24kHz) Ashihara et al, 2010: Psychoacoustic Measurement and Auditory Brainstem Response in the Frequency Range Between 10 kHz and 30 kHz some subjects could perceive sounds above 20 kHz and the auditory brainstem response could be measured for one subject at 22 kHz. However, SPLs of the thresholds were beyond 80 dB in the both measurements. The aud.nerve seems not to be stimulated by weak high-frequency sounds

30 30 PWL, intensywność dźwięku Poziom mocy dźwięku –Całkowita moc dźwięku emitowanego przez źródło we wszystkich kierunkach –Mierzona w watach (joule/s) –Sound Power Level (PWL)=10 log(W/W 0 ), W 0 = watów Intensywność (natężenie) dźwięku –Stosunek przepływu energii przez jednostkę powierzchni/s –Sound Intensity Level (IL) = 10 log (I/I 0 ), gdzie I 0 = wat/m 2 (I/I 0 =(p/p 0 ) 2 ) 2 i więcej źródeł –2 jednakowe źródła dają zwiększenie PWL o 3dB –2 jednakowe źródła dają 3 dB zwiększenie SPL, przy założeniu braku interferencji (10 log 2*I 1 /I 2 =10 log log I 1 /I 2 ) –Dwa 80-decybelowe źródła dodając się dają 83 dB SPL

31 31 Percepcja głośności Głośność opisuje wielkość wrażenia słuchowego. Zasadniczo zależy od wielkości fizycznej ciśnienia dźwięku wytwarzającego to wrażenie; inne czynniki: częstotliwość i amplituda, szerokość pasma, czas trwania, złożoność dźwięku

32 32 Głośność

33 33 Poziom głośności Skala poziomu głośności dźwięku –dla prawidłowej oceny głośności Poziom głośności dźwięku [fon] = poziom ciśnienia akustycznego jaki w danym punkcie wytwarza fala akustyczna o częstotliwości 1000 Hz, która daje głośność identyczną z głośnością porównywanego dźwięku –Liczbowo p.g. wyraża się wartością poziomu natężenia tonu porównawczego, tzn. liczba fonów równa się liczbie decybeli tonu porównawczego 0 fonów - próg czułości ucha, 130 fonów - granica bólu; 1 fon to poziom głośności dźwięku o poziomie natężenia 1 dB i częst. 1kHz –(E.Kubera, praca doktorska, PJWSTK); głośności poziom, poziom głośności, natężenia dźwięku poziom

34 34 Skalowanie głośności 2-krotna zmiana natężenia odpowiada zmianie poziomu o 3 dB 2-krotna zmiana głośności jest wywołana zmianą poziomu o 10dB Głośność L [son]: L = k I 0,3, k – stała (powyżej 40dB) Głośność 1 son = głośność tonu o częstotliwości 1kHz i poziomie 40 dB SPL 1 son=głośność tonu 1000 Hz na poziomie dźwięku 40 dB (lub głośności 40 fonów); dźwięk o głośności 2 jest 2-krotnie głośniejszy, dźwięk o poziomie 0.5 son jest o połowę cichszy –Podwojenie głośności z 1 sona do 2 sonów: 50 dB SPL –100 dB: 64 sony Dla niskich poziomów głośność zmienia się szybciej Skala fonów –SPL tonu odniesienia identyfikuje izofony (krzywe jednakowej głośności) w jednostkach zwanych fonami, wyznaczanymi w dB SPL dla 1 kHz

35 35 Skalowanie głośności skala dla tonu o częstotliwości 1kHz

36 36 Percepcja głośności sygnału Izofony Krzywe jednakowej głośności dla różnych poziomów głośności. Sygnały testowe prezentowano binauralnie i docierały do obserwatora z przodu. Dodatkowo przedstawiono krzywą progu słyszalności MAF w polu swobodnym

37 37 Izofony: Standard ISO 226:2003 Normal equal-loudness-level contours

38 38 Percepcja głośności Głośność czystych tonów –Dźwięki o równym SPL ale różnych częstotliwościach nie muszą brzmieć tak samo głośno –Nasz układ słuchowy jest szczególnie niewrażliwy na dźwięki o niskiej częstotliwości o intensywności od średniej do niskiej –Maksimum czułości ok Hz i lokalne maksimum ok. 13 kHz są związane z 2 pierwszymi częstotliwościami rezonansowymi kanału słuchowego

39 39 Percepcja głośności Głośność i czas trwania dźwięku –Głośność wzrasta z czasem trwania dźwięku, do ok. 0,2 s –Ochrona do ok. 20 dB zapewniana jest przez mięśnie przyczepione do błony bębenkowej i kosteczki słuchowe, przy ekspozycji na dźwięk przekraczający ok. 85 dB ruch obrotowy wokół poziomej osi strzemiączka przy zbyt silnym pobudzeniu błony bębenkowej – tzw. refleks akustyczny, lub inaczej odruch strzemiączkowy –Ten odruch zaczyna działać ok ms po rozpoczęciu dźwięku, pełna ochrona następuje po ok. 150 ms. Tak więc głośne impulsy dźwiękowe (eksplozje, strzały) są zbyt szybkie, by zadziałała ochrona ucha

40 40 Mierzenie poziomu dźwięku Mierniki poziomu dźwięku wyposażone są w krzywe korekcyjne, oparte na izofonach. Krzywe te uwzględniają aspekty głośności zależne od częstotliwości Natężenia dla wszystkich częstotliwości, nim zostaną zsumowane, podlegają ważeniu za pomocą funkcji będących odwróconymi izofonami Funkcje te są jedynie zbliżone kształtem do izofon

41 41 Percepcja głośności sygnału A,B,C – wyznaczają krzywe korekcyjne stosowane w miernikach poziomu dźwięku Dla miernika krótkoczasowego – sugerowana stała czas.~4s; powinien działać nieliniowo – reagować szybciej przy szybszych zmianach sygnału Najpopularniejsza jest krzywa A

42 42 Prawo Webera -Fechnera Przyrost wrażenia jest logarytmicznie proporcjonalny do przyrostu bodźca Przyrost wrażenia jest proporcjonalny do logarytmu przyrostu bodźca Przyrost intensywności bodźca zdolny wywołać dostrzegalny przyrost intensywności wrażenia jest proporcjonalny do już działającego bodźca

43 43 Odstępstwa od prawa Webera Od strony dużych częstotliwości pobudzenie wzrasta nieliniowo ze wzrostem natężenia Przebiegi pobudzeń wywołanych przez ton o częstotliwości 1kHz i o poziomie 20, 30, 40, 50, 60, 70, 80 i 90dB (najwyższa krzywa). Przebiegi wyznaczone na podstawie danych psychoakustycznych

44 44 Spostrzeganie zmian natężenia Dynamika układu słuchowego – reakcja na pobudzenie

45 45 Filtry słuchowe Układ słuchowy można modelować jako zestaw filtrów słuchowych

46 46 Pasma krytyczne Pasmo krytyczne jest to elementarne pasmo częstotliwości o szerokości wydzielone z ciągłego pasma szumów i zawierające w sobie moc akustyczną równą mocy akustycznej tonu prostego o częstotliwości f położonej w środku tego pasma, przy czym rozpatrywany ton prosty ma taką intensywność, że zagłuszany przez nieograniczone widmo szumów ciągłych znajduje się dokładnie na granicy słyszalności

47 47 Pasma krytyczne Jeśli ton prosty o częstotliwości f jest słyszany na tle równomiernego i nieograniczonego szumu, to efekt zagłuszania tonu przez szum wywołany jest jedynie działaniem szumów mieszczących się w paśmie krytycznym

48 48 Pasma krytyczne Są regionami „wyróżnionymi” na błonie podstawnej Wyznaczone przez eksperymenty psychoakustyczne Ok. 24 pasm na błonie podstawnej Każde pasmo ma ok. 1,3 mm dł. i obejmuje ok.1300 neuronów

49 49 Pasma krytyczne Wg Zwickera –24 pasma –http://ccrma- t/Bark_Frequency_Scale. htmlhttp://ccrma- t/Bark_Frequency_Scale. html Wg Fletchera –12 pasm

50 50 Głośność dźwięków złożonych Gdy szerokość pasma dźwięku złożonego jest mniejsza od szerokości pasma krytycznego, wtedy głośność jest ~ niezależna od szerokości pasma Dźwięk taki oceniany jest jako jednakowo głośny z tonem o takim samym natężeniu i o częstotliwości = częstotliwości środkowej pasma tego dźwięku Jeśli szerokość pasma dźwięku będzie zwiększana ponad szerokość pasma krytycznego, głośność tego dźwięku zacznie wzrastać

51 51 Głośność dźwięków złożonych Dla dźwięków o szerszym paśmie rośnie wraz z pasmem – tzw. sumowanie głośności –Np. szerokopasmowy dźwięk orkiestry grającej akord wydaje się być głośniejszy niż pojedynczy dźwięk fletu, nawet jeśli dźwięki mają ten sam poziom SPL

52 52 Głośność dźwięków złożonych Poziom głośności w fonach pasma szumu o częstotliwości środkowej 1kHz jako funkcja szerokości tego pasma. Dla każdej z krzywych całkowity poziom dźwięku [dB SPL] był stały. Początek wzrostu głośności przypada dla tej samej szerokości pasma bodźca dla wszystkich poziomów (oprócz najniższego – bez wzrostu głośności)

53 53 Głośność dźwięków złożonych Zmienność głośności z szerokością pasma Stała wartość dla pasm węższych niż pasmo krytyczne –ERB – ekwiwalentna szerokość prostokątna – miara szerokości pasma filtrów –Równa szerokości filtru doskonale prostokątnego o wysokości i polu powierzchni jak dany filtr Górny rys: Krzywe pobudzenia dla sygnału sin 1kHz o poziomie 60dB SPL i pasm szumu o częst. środkowej 1kHz, 60dB SPL i różnych szerokościach. Częstotliwość wyrażono w jednostkach ERB. Szerokości pasm szumu wynoszą 20, 60, 140, 620 i 1260 Hz. Gdy szerokość pasma szumu wzrasta, krzywe pobudzenia obniżają się i obejmują szerszy zakres wskaźnika ERB. Dolny rys: krzywe głośności właściwej odpowiadające krzywym pobudzenia z rys. górnego. Dla szerokości pasma <=140Hz powierzchnia pod krzywą głośności właściwej jest stała. Dla szerszych pasm szumu całkowita powierzchnia zwiększa się.

54 54 Perceptualne aspekty słyszenia Maskowanie: w czasie (w przód, wstecz), w dziedzinie częstotliwości –Głośniejszy dźwięk może sprawić, że inny, cichszy dźwięk nie będzie słyszalny (głośniejszy zamaskuje cichszy), zależnie od wzajemnych relacji częstotliwości i głośności obu dźwięków –Czyste tony o bliskich częstotliwościach maskują się bardziej niż oddalone –Czysty ton o wyższej częstotliwości jest maskowany efektywniej niż o niższej –Im większa intensywność tonu maskującego (maskera), tym szersze pasmo maskowania

55 55 Krzywe maskowania Krzywe (audiogramy) maskowania dla wąskiego pasma szumu o różnym poziomie i o częstotliwości środkowej 410Hz. Każda krzywa przedstawia podwyższenie progu detekcji tonu jako funkcję jego częstotliwości

56 56 Perceptualne aspekty słyszenia: wysokość dźwięku Rozróżnianie wysokości dźwięku –Najmniejsza postrzegalna różnica pomiędzy 2 pobudzeniami zwana jest just noticeable difference (jnd) –jnd dla wysokości dźwięku zależy od jego częstotliwości podstawowej, poziomu dźwięku, czasu trwania i szybkości zmian częstotliwości –Ten sam mechanizm wydaje się odpowiadać za pasma krytyczne i rozróżnianie częstotliwości –Około 30 jnd w każdym paśmie krytycznym dla wszystkich środkowych częstotliwości Częstotliwość podstawowa F a okres T i długość fali dźwiękowej λ; λ=cT, F=1/T, c – prędkość dźwięku w powietrzu, 345m/s w temp. 22°C (340m/s); Prędkość dźwięku w ciałach stałych jest większa niż w powietrzu –F=32,7Hz  długość fali 10,5m  okres 30,6ms –F=261,6Hz  długość fali 1,3m  okres 3,8ms –F=12,558Hz  długość fali 27,5mm  okres 0,08ms

57 57 Skala melowa i skala barków Skala melowa - uwzględniająca cechy psychofizjologiczne słuchu ludzkiego Skala barków – pasma krytyczne wg Zwickera

58 58 Wysokość dźwięku Słyszana wysokość dźwięku –W dźwięku harmonicznym, największy wspólny dzielnik częstotliwości składowych identyfikowany jest jako wysokość dźwięku, nawet, jeśli jest bardzo słaby lub brakujący (częstotliwość pozorna) –W nieharmonicznych tonach złożonych, ucho wychwytuje serie składowych zbliżonych do harmonicznych w okolicy środka zakresu słyszalności i wyznacza wysokość dźwięku jako NWD w seriach Np. 650, 950,1250 Hz ->334Hz (1,95, 2,84, i 3,74) –Składowe zbyt odległe od t.podst. by były traktowane przez ucho jako cześć dźw.harm. o podstawie 50Hz

59 59 Wysokość dźwięku Model percepcji dźwięków złożonych

60 60 Wysokość dźwięku Wysokość czystych tonów a czas trwania –Wrażenie wysokości może powstać po 3-4 okresach dla impulsów tonów o niskiej częstotliwości ( Hz), jednak ten czas trwania wydłuża się do ok. 12 okresów dla 1000 Hz (i rośnie wraz z częstotliwością) –Jeśli ton ma miękki atak, rozpoznanie jest możliwe już po 3 ms

61 61 Wysokość dźwięku Wysokość czystych tonów a interferencja z innymi dźwiękami –Wysokość tonu testowego wydaje się wzrastać w obecności tonu interferującego o niższej częstotliwości –Wysokość tonu testowego wydaje się maleć w obecności tonu interferującego o wyższej częstotliwości –Wysokość tonu testowego wydaje się wzrastać w obecności interferującego szumu o składnikach niskiej częstotliwości. Jeśli szum zawiera wyższe częstotliwości, możliwe jest przesunięcie w obu kierunkach –Postrzegane przesunięcie wysokości dźwięku wzrasta wraz ze wzrostem amplitudy interferującego dźwięku przekraczającej amplitudę tonu testowego

62 62 Słyszenie barwy dźwięku Barwa dźwięku –Cecha dźwięku pozwalająca rozróżnić 2 dźwięki o tej samej wysokości, prezentowane w tych samych warunkach (wg American Standards Association) –Subiektywny atrybut dźwięku, oparty głównie na składzie częstotliwościowym dźwięku Zależy od kształtu fali dźwiękowej Charakter zmian czasowych składowych widma ma duże znaczenie dla określania barwy dźwięku –Stałe proporcje składników widma – monotonne brzmienie –Skale subiektywne (nudny - błyskotliwy, zimny - ciepły, ubogi - bogaty, tępy - ostry, zwarty - rozproszony, pełny - pusty, barwny - bezbarwny)

63 63 Słyszenie wielotonów Składową wielotonu można usłyszeć jako oddzielną, gdy jej odległość od sąsiednich składowych szerokości pasma krytycznego Dla dwutonów jest to możliwe dla mniejszych odległości Rys. górny: pobudzenia dla poszczególnych składowych i pobudzenie łączne. Rys. dolny: pobudzenia związane z 7 i 8 składową oraz ich pobudzenie łączne. Dla dwutonu neurony o częstotliwościach charakterystycznych 1600Hz będą zsynchronizowane głównie z wyższą z harmonicznych

64 64 Słyszenie barwy dźwięku Spadek amplitudy alikwotów o 6dB/okt. odpowiada barwie naturalnej Przy spadku amplitudy alikwotów <6dB na oktawę dźwięk ma barwę wytężoną Przy spadku amplitudy alikwotów >6dB na oktawę dźwięk ma barwę lekką

65 65 Słyszenie barwy i wysokości dźwięku Glissando –wrażenie stale rosnącej wysokości dźwięku: TCpages/chap.4/chap4.snd/forann.aiff. mp3 TCpages/chap.4/chap4.snd/forann.aiff. mp3 Słyszenie ciągłego dźwięku –the illusion of continuity: the auditory system fills in the gaps in the meaningful signal component based on other nontonal energy in the same frequency region

66 66 Słyszenie mowy Głoski dźwięczne i bezdźwięczne Głoski dźwięczne zawierają formanty Formant – maksimum charakterystyki (obwiedni widma), wyraźnie przekraczające założony poziom średni tej charakterystyki, przy zapewnieniu warunku odpowiedniej rozległości tego maksimum I prążek odpowiada tonowi krtaniowemu

67 67 Słyszenie mowy Górna część: krótkoterminowe widma różnych fragmentów czasowych wypowiedzi, środkowa – spektrogram, dolna – zmiany amplitudy sygnału w czasie. Widma w górnej części zostały wyznaczone na podstawie sygnału, którego składowe o dużych częstotliwościach zostały wzmocnione względem składowych o małych częstotliwościach

68 68 Zrozumiałość mowy Standardy (JAES vol. 53 no.7/8 2005, p. 760): –Speech Interference Level (SIL) –Articulation Index (AI) –Speech Intelligibility Index (SII) –Speech Transmission Index (STI) Pasmo telefoniczne: Hz

69 69 Zrozumiałość mowy Speech Transmission Index (STI) –STI measurements make use of a modulation transfer function in which the human voice is characterized by 7 bands of frequencies from 125 Hz to 8 kHz that are modulated in a range Hz –STI value reveals the depth of modulation –If no noise or reverberation alters the sound, then the speech intelligibility is considered excellent at 1.0 –As distortion reduces the depth of modulation, falling STI scores reflect lower speech intelligibility –STI=0 indicates that the communication is totally unintelligible

70 70 Lokalizacja źródła dźwięku a human being cannot easily distinguish the variation of the spatial angle within 3 degree distortion JAES vol.53 no p.1216; JAES v.55 no p.540 IID: Interaural intensity difference – dominuje dla częstotliwości powyżej ok Hz –Interaural Level Difference; wewnątrzsłuchowa różnica natężenia dźwięku In real rooms low-frequency ILDs are often strongly affected by the acoustics of the space, giving rise to misleading localization cues –In such cases it appears that we ignore the ILD cues and concentrate on the ITDs ITD: Interaural time difference - dominuje dla f<1kHz –Interaural Time Delay; wewnątrzsłuchowe opóźnienie czasowe Efekt pierwszeństwa –Fale dźwiękowe podróżują z jednej strony głowy na drugą w ok s (tak szybko, że nie słyszymy echa dopóki dźwięk nie zwolni 100 razy). Umysł szybko oblicza różnicę dźwięków dochodzących do obu uszu w minimalnie różnym czasie, a następnie pierwszy usłyszany dźwięk określa kierunek Działa dla zmiennych dźwięków (np. przejeżdżające auto), ale nie tak efektywnie dla ciągłych dźwięków wysokiej częstotliwości (flet) HRTFs: Head-related Transfer Functions – powszechnie używane w systemach reprodukcji 3D –Presenting sounds in virtual environments requires filtering free-field signals with HRTFs, describing the filtering effects of pinna, head, and torso measured in the ear canal of a subject –Konieczne jest wyznaczenie odrębnej HRTF dla każdego ucha i dla każdej pozycji

71 71 Lokalizacja źródła dźwięku

72 72 HRTF represents the modifying effect of the head and ear on the signal originating from a particular point in space, in terms of time delay and frequency spectrum characterizes the scattering of sound waves on the human body, esp. on pinnae, head, and torso high variability between individuals –updating is done to reflect the changes in the sound transmission to the listener’s ears that occur as a result of moving sound individually measured, generic, and customizable HRTFs –Symmetrical nature of HRTFs may exacerbate the in-the-head locatedness of headphone playback

73 73 Lokalizacja źródła dźwięku Lokalizacja źródła tonów stacjonarnych w polu swobodnym w płaszczyźnie horyzontalnej (zał: źródło znajduje się z jednej strony głowy słuchacza). Dźwięk dochodząc do ucha dalszego jest opóźniony w stosunku do dźwięku docierającego do ucha bliższego. Powstaje międzyuszna (binauralna) różnica czasu. Dla tonów stacjonarnych różnica ta odpowiada binauralnej różnicy fazy W lokalizacji źródła dźwięku odgrywają rolę m.in. ruchy głowy Od kąta padania dźwięku zależy głośność JAES v.56 no p.452

74 74 Lokalizacja źródła dźwięku Układ współrzędnych stosowany do określenia kątów dochodzenia dźwięków względem głowy słuchacza. Azymut teta ma dodatnie wartości z lewej strony głowy, kąt biegunowy delta ma dodatnie wartości powyżej płaszczyzny horyzontalnej; r – odległość źródła dźwięku od głowy

75 75 Lokalizacja źródła dźwięku Rzeczywistość wirtualna - interactive virtual audio displays: headtracker latency values lower than 60 ms are likely to be adequate for most virtual audio applications, and delays of less than 30 ms are difficult to detect even in very demanding virtual auditory environments –J. Audio Eng. Soc., Vol. 54, No. 1/2, 2006 p.32

76 76 Złudzenia słuchowe –Can arise when there are conflicting segregation or fusion cues, with a resulting condition in which the psychological perception is very different from the physical stimuli The Franssen Illusion produces large localization errors due to the ineffectiveness of ITD and ILD cues in determining the location of a sinusoidal source in a reflective room The Clifton Effect is a result of the breakdown of the precedence effect The McGurk Effect results when a visual cue contradicts an accompanying auditory cue –J. Audio Eng. Soc., Vol. 55, No. 4, 2007 p.308

77 77 Literatura Alicja Wieczorkowska. Multimedia. Podstawy teoretyczne i zastosowania praktyczne. PJWSTK, 2008 Urszula Jorasz, Wykłady z psychoakustyki, Wydawnictwo Naukowe UAM. Poznań 1998 Brian C. J. Moore, Wprowadzenie do psychologii słyszenia, Wydawnictwo Naukowe PWN, Warszawa-Poznań 1999 James O. Pickles, An Introduction to the Physiology of Hearing, Academic Press, London słuch/dźwięk: astr.gsu.edu/hbase/sound/soucon.htmlhttp://hyperphysics.phy- astr.gsu.edu/hbase/sound/soucon.html ccrma.stanford.edu/CCRMA/Courses/152/index.htmlhttp://www- ccrma.stanford.edu/CCRMA/Courses/152/index.html


Pobierz ppt "Wstęp do Multimediów Słuch. Podstawowe pojęcia z dziedziny akustyki. Charakterystyki słuchu. Pasma krytyczne. Właściwości słyszenia muzyki i mowy Wykład."

Podobne prezentacje


Reklamy Google