Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl Dwięk w multimediach Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl Wykład 6.

Slides:



Advertisements
Podobne prezentacje
Znaki informacyjne.
Advertisements

Wprowadzenie do informatyki Wykład 6
Obserwowalność System ciągły System dyskretny
dr Jarosław Poteralski
POWIAT MYŚLENICKI Tytuł Projektu: Poprawa płynności ruchu w centrum Myślenic poprzez przebudowę skrzyżowań dróg powiatowych K 1935 i K 1967na rondo.
Ludwik Antal - Numeryczna analiza pól elektromagnetycznych –W10
Filtracja obrazów cd. Filtracja obrazów w dziedzinie częstotliwości
Liczby pierwsze.
Domy Na Wodzie - metoda na wlasne M
1 mgr inż. Sylwester Laskowski Opiekun Naukowy: prof. dr hab. inż. Andrzej P. Wierzbicki.
Ryszard Gubrynowicz DwiĘk w multimediach Ryszard Gubrynowicz Wykład 2.
Systemy operacyjne Copyright, 2000 © Jerzy R. Nawrocki Wprowadzenie do informatyki.
PREPARATYWNA CHROMATOGRAFIA CIECZOWA.
Wykład Równanie Clausiusa-Clapeyrona 7.6 Inne równania stanu
Systemy dynamiczne 2010/2011Systemy i sygnały - klasyfikacje Kazimierz Duzinkiewicz, dr hab. inż.Katedra Inżynierii Systemów Sterowania 1 Dlaczego taki.
Proces analizy i rozpoznawania
Podstawowe pojęcia akustyki
E-learning czy kontakt bezpośredni w szkoleniu nowych użytkowników bibliotek uczelni niepaństwowych? EFEKTYWNOŚĆ OBU FORM SZKOLENIA BIBLIOTECZNEGO W ŚWIETLE.
Klasyfikacja systemów
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- V Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat a.
Opracował: Zespół Humanistyczny. Klasa Średnia ww - wielokrotnego wyboru (na 20 p) Średnia KO - krótkie odpowiedzi (na 10 p) Średnia za zaproszenie (na.
Pytania konkursowe.
Jak wypadliśmy na maturze z matematyki w 2010 roku?
Wykonawcy:Magdalena Bęczkowska Łukasz Maliszewski Piotr Kwiatek Piotr Litwiniuk Paweł Głębocki.
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
Percepcja słuchowa.
Wyrażenia algebraiczne
„Rynek pracy w powiecie trzebnickim: struktura bezrobocia i miejsca pracy.”
Podstawy automatyki 2012/2013Transmitancja widmowa i charakterystyki częstotliwościowe Mieczysław Brdyś, prof. dr hab. inż.; Kazimierz Duzinkiewicz, dr.
Fale dźwiękowe.
KOLEKTOR ZASOBNIK 2 ZASOBNIK 1 POMPA P2 POMPA P1 30°C Zasada działanie instalacji solarnej.
ŻYWE JĘZYKI PROGRAMOWANIA LIVING IT UP WITH A LIVE PROGRAMMING LANGUAGE Sean McDirmid Ecole Polytechnique Fédérale de Lausanne (EPFL)
EGZAMIN GIMNAZJALNY W SUWAŁKACH 2009 Liczba uczniów przystępująca do egzaminu gimnazjalnego w 2009r. Lp.GimnazjumLiczba uczniów 1Gimnazjum Nr 1 w Zespole.
Analiza wpływu regulatora na jakość regulacji (1)
1. Pomyśl sobie liczbę dwucyfrową (Na przykład: 62)
1. ŁATWOŚĆ ZADANIA (umiejętności) 2. ŁATWOŚĆ ZESTAWU ZADAŃ (ARKUSZA)
Analiza matury 2013 Opracowała Bernardeta Wójtowicz.
Obserwowalność i odtwarzalność
Podstawy statystyki, cz. II
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.
Głoska GŁOSKA –najmniejszy element dźwiękowej formy wypowiedzi charakteryzujący się stałym zespołem cech: artykulacyjnych, tzn. związanych z położeniem/
-17 Oczekiwania gospodarcze – Europa Wrzesień 2013 Wskaźnik > +20 Wskaźnik 0 a +20 Wskaźnik 0 a -20 Wskaźnik < -20 Unia Europejska ogółem: +6 Wskaźnik.
Trening metodą Warnkego
EGZAMINU GIMNAZJALNEGO 2013
EcoCondens Kompakt BBK 7-22 E.
EcoCondens BBS 2,9-28 E.
W2 Modelowanie fenomenologiczne I
Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.
User experience studio Użyteczna biblioteka Teraźniejszość i przyszłość informacji naukowej.
WYNIKI EGZAMINU MATURALNEGO W ZESPOLE SZKÓŁ TECHNICZNYCH
Komenda Powiatowa Policji
Testogranie TESTOGRANIE Bogdana Berezy.
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VI Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat a.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
Dr hab. Renata Babińska- Górecka
Przygotowanie do egzaminu gimnazjalnego
Systemy dynamiczne 2014/2015Obserwowalno ść i odtwarzalno ść  Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Obserwowalność.
Wpływ niskich temperatur na organizm człowieka
1 Używanie alkoholu i narkotyków przez młodzież szkolną w województwie opolskim w 2007 r. Na podstawie badań przeprowadzonych przez PBS DGA (w pełni porównywalnych.
Daria Olejniczak, Kasia Zarzycka, Szymon Gołda, Paweł Lisiak Kl. 2b
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Współrzędnościowe maszyny pomiarowe
Elementy geometryczne i relacje
Strategia pomiaru.
LO ŁobżenicaWojewództwoPowiat pilski 2011r.75,81%75,29%65,1% 2012r.92,98%80,19%72,26% 2013r.89,29%80,49%74,37% 2014r.76,47%69,89%63,58% ZDAWALNOŚĆ.
Korpusy mowy i narzędzia do ich przetwarzania
Metody komunikacji ludzi
Ruch – jedno w najczęściej obserwowanych zjawisk fizycznych
Komunikacja: proces przekazywania (wymiany) informacji między jej uczestnikami. Nośnikami danych mogą być słowa (komunikacja werbalna), gesty, teksty,
Zapis prezentacji:

Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl Dwięk w multimediach Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl Wykład 6

Sylaby fonetyczne Zmiany głośności między kolejnymi głoskami w strumieniu dźwięków mowy warunkują podział wypowiedzi na tzw. sylaby fonetyczne. Rdzeniem (ośrodkiem) sylaby fonetycznej jest segment głoskowy różniący się poziomem głośności od swego najbliższego otoczenia. Jego głośność jest niemal zawsze większa od głośności głoski występującej bezpośrednio przed nim i po nim.

Granice między sylabami Przebieg zmian intensywności Granice sylab fonetycznych wypadają w momentach zamknięcia toru głosowego lub powstania w nim znacznego zwężenia, ewentualnie w chwili wystąpienia tzw. pauzy akustycznej.

Struktura sylabiczna wypowiedzi Sylaba nie stanowi elementu funkcjonalnego jakim jest głoska. Jej jedyną funkcją jest segmentacja wypowiedzi, ułatwiająca artykulację i percepcję. Segmentacja ta dokonuje się poprzez rytmizację ciągu segmentów, spowodowaną podziałem tego ciągu na skutek chwilowych obniżeń poziomu emitowanego sygnału mowy. Obniżenia te są wywoływane przez zwarcia, bądź szczeliny będącymi źródłem pobudzenia szumowego o niskim poziomie. Ośrodkami sylab są głoski o najwyższym poziomie (na ogół są to samogłoski).

Poziom intensywności w sylabach „uwydatnionych”

Akcent wyrazowy Definicja akcentu: Jest to to proces uwydatniający wybrane segmenty w sygnale mowy ciągłej, np. sylab w wyrazach lub wyrazów w zdaniach. Uwydatnienie sylaby akcentowanej może polegać na silniejszym, a zarazem głośniejszym jej wypowiedzeniu, na bardziej precyzyjnym jej wymówieniu, co może spowodować jej wydłużenie czasu trwania. Może też wystąpić tylko podwyższenie (niekiedy obniżenie) częstotliwości pobudzenia krtaniowego.

Akcent dynamiczny, rytmiczny i melodyczny W zależności od tego, który z tych czynników przeważa, akcent jest określany jako: dynamiczny – gdy czynnikiem dominującym w płaszczyźnie akustycznej są zmiany intensywności rytmiczny – gdy o wrażeniu akcentu decydują zmiany iloczasów sylab, lub melodyczny – gdy akcentowanie sylaby jest realizowane poprzez zmianę wysokości głosu Dla języka polskiego przyjmuje się , że akcent jest zazwyczaj dynamiczny, choć jest to dyskusyjne.

Położenie akcentu Przyjmuje się, że w języku polskim akcent wyrazowy jest stały i spoczywa w zasadzie na przedostatniej sylabie formy wyrazowej. Są formy wyrazowe nie mające samodzielnego akcentu np. „się”, „ci”, „za”, „mnie” itp. i dołączają się do wyrazu mającego swój akcent – np. „pod_lasem”. Akcent wyrazów zapożyczonych jest na ogół na 3-ej sylabie od końca – „logika”. To samo może wystąpić w niektórych formach czasownikowych – „widzieliśmy”. Dłuższe formy wyrazowe obok akcentu na sylabie przedostatniej mają także akcent na pierwszej sylabie (akcent główny) – „prawdopodobnie” (o tym zadecydowały względy rytmiczne i melodyczne)

Przykład analizy położenia akcentu tSI mo pa Ze mi ni Wpływ iloczasu na percepcję akcentu tSI mo pa Ze mi ni

Wpływ poziomu intensywności na percepcję akcentu

Wpływ F0 na percepcję akcentu

Przykład melodii zdania angielskiego –„I wanted chocolate and cake” kolor czarny – melodia standardowa; pozostałe kolory z przenoszeniem akcentu zielony – „I” czerwony– „and” niebieski – „cake”

Realizacja akcentu w płaszczyźnie akustycznej W zależności od języka mówca posługuje się jednym z akcentów jako dominującym dla danego języka. W przykładzie dla języka angielskiego (z dominującym akcentem melodycznym), mówca niekiedy dodaje również akcent dynamiczny, a niekiedy obserwuje się wydłużenie sylaby, by uzyskać na niej słyszalne podniesienie melodii.

Jak jest realizowany akcent w języku polskim? -30 -40 -50 -60 -70 [dB] Czas [s] F0 [półtony] -sylaby akcentowane 11 10 14 8 19 % czas trwania sylab

Wpływ zwiększenia iloczasu samogłoski /i/ w sylabie /bli/ i skrócenia samogłoski /e/ w /kle/

Wpływ spłaszczenia konturu melodycznego Iloczas sylab nie modyfikowany Iloczas sylab jednakowy Iloczas sylaby /bli/ zwiększony

Przykład zapisu muzycznego melodii mowy

Rozkład iloczasów sylab F0 F0 F0 F0

Przebieg zmian F0, A i iloczasów samogłosek

Opis symboliczny melodii zdania T HL H LH HL H HL H LH L L L B

Funkcje melodii (intonacji) mowy W języku polskim zmiany wysokości tonu krtaniowego, charakteryzują wraz z rozłożeniem akcentów, tempem wypowiedzi itp. dłuższe niż głoska odcinki wypowiedzi. Zmiany F0 są nosicielami informacji o rozczłonowaniu składniowym tej wypowiedzi, o tym które jej fragmenty są szczególnie ważne, sygnalizują też koniec całej wypowiedzi, lub któregoś z jej członów.

Wzmocnienie sylaby Wzmacnianie danej sylaby często odbywa się poprzez podniesienie częstotliwości F0 (w przykładzie na „O!”, czy „Jak to..”). Takie uwydatnianie nazywa się akcentem logicznym (zdaniowym). Na ogół, wymaga to ponadto zwiększenia iloczasu uwydatnianej sylaby. Obniżenie melodii jest zazwyczaj w wypowiedziach stanowiących zamkniętą całość. Podobnie jest w pozbawionych emocji poleceniach i rozkazach. Na końcu tych odcinków wypowiedzi, które wyodrębniają się, ale nie stanowią jeszcze zamkniętej całości, a więc takich, po których ma nastąpić ciąg dalszy melodia się wznosi. Podobnie melodia wznosi się na końcu zdania pytającego.

Rola cech prozodycznych w mowie porządkują i organizują strukturę czasową wypowiedzi są nosicielami informacji o jej podziale składniowym sygnalizują gramatyczną funkcję wypowiedzi (przede wszystkim melodia jest nosicielem tej informacji) sygnalizują stan emocjonalny

Jakiego typu jest to fraza? F0 [półtony] Czas [s]

Było to zdanie niedokończone F0 [półtony] Czas [s]

Czy prozodia wpływa na artykulację ? Intensywność i rejestr głosu F0=262 Hz F0=466 Hz F0=349 Hz

Przykłady zapisu nutowego fraz wypowiedzianych przez K.Ch.

Muzyczna notacja dla mowy ? W dobie precyzyjnych pomiarów częstotliwości, czy ma jeszcze sens ? W muzyce podstawowym pojęciem jest interwał – różnica wysokości dwóch dźwięków wyrażona w jednostce miary, której podstawą jest oktawa i półton Muzyczny interwał jest muzyczną odległością między dźwiękami o różnej wysokości – ma bezpośredni związek z percepcją wysokości. Interwały są związane z częstotliwością, ale nie są identyczne (w różnych oktawach te same interwały są w skali częstotliwości różne) Tony 220 Hz i 440 Hz są muzycznie identyczne

Mowa a muzyka Muzyczne interwały nie zależą od zakresu Oktawa może być dzielona muzycznie na wiele sposobów Melodia może wykorzystywać tylko jakąś część muzycznej przestrzeni dźwiękowej Mowa rozciąga lub zmniejsza całą przestrzeń dźwiękową. W zmienionej przestrzeni nadal dźwięk Wysoki pozostaje nadal Wysoki bez względu na to, czy przestrzeń ta została rozciągnięta, czy pomniejszona. W muzyce pomniejszony interwał jest różny od rozciągniętego Innymi słowy, muzyczna tonalność zmienia się w obrębie przestrzeni tonicznej, natomiast mowa tę przestrzeń sobie niemal dowolnie kształtuje

Nieadekwatność notacji muzycznej mowy Notacja nutowa sugeruje, że mowa jest „muzyczna”. Muzyczna notacja może być myląca, sugerując strukturę tonalną melodii mowy, o czym nie ma przekonywujących danych. Jednakże badania neurologiczne wskazują na związek między percepcją konturu melodycznego i intonacją, ale nie między intonacją (w sensie lingwistycznym) i muzyczną tonalnością.

Manipulacja prozodią w syntezie mowy praat Po wczytaniu pliku wav, „Go to Manipulation”

Mowa jako ciąg krótkotrwałych segmentów

Modyfikacja czasu trwania Podwojenie lub usunięcie segmentu

SOLA-Synchronized Overlap and Add Przetwarzanie segmentów czasowych - Segmentacja na ciągi x[n] w zachodzących na siebie ramkach Przesunięcie segmentów odpowiednio do wielkości współczynnika skalującego  Wzajemne ustawienie, przedział nakładania/sumowania, Obliczenie korelacji wzajemnej w przedziale nakładania się Tak przesunąć względem siebie segmenty, by w tym przedziale współczynnik korelacji wzajemnej był maksymalny wzmacnianie/tłumienie j.w. Dowolne przesunięcie czasowe BILD ???

PSOLA Wariant metody OLA specjalnie dostosowany do przetwarzania mowy Podział sygnału na zachodzące na siebie okienka Podział zsynchronizowany z F0 unikać miejsc z nieciągłościami F0 Konieczne jest wstępne zaznaczenie na przebiegu sygnału miejsca impulsów krtaniowych Analiza: wyznaczenie okresów pobudzenia krtaniowego ekstrakcja okienkowanych segmentów, których środki znajdują w miejscach impulsów krtaniowych

Synteza sygnału mowy Skalowanie czasowe: Zmiana F0: Skalowane segmenty muszą być dodane lub usunięte bez zmiany odległości między sąsiednimi impulsami krtaniowymi Zmiana F0: Po syntezie czas trwania segmentu nie ulega zmianie, natomiast konieczne jest przeskalowanie lokalnego okresu tonu krtaniowego Segmenty mogą być pomijane (kompresja/obniżenie wysokości głosu) Segmenty mogą być podwojone (rozciągnięcie/zwiększenie wysokości) Artefakty: „rozmazywanie tranzjentów”, słyszalne „cięcia”, zniekształcenia błędami fazowymi

Zmiana skali czasu - zwiększenie Schematyczne przedstawienie odwzorowania osi czasu analizy w oś czasu syntezy

Modyfikowanie czasu – zmniejszenie

Modyfikowanie intonacji bez zmiany skali czasu

Multimedialna/multimodalna reprezentacja emocji

Jakie stany emocjonalne należy/można wyróżnić?

Uniwersalizm niektórych sposobów wyrażania stanów emocjonalnych Ekman wykazał , że niektóre stany emocjonalne są wyrażane w sposób niezależny od środowiska kulturowego: radość smutek złość, gniew strach, obawa odraza, wstręt (dla niektórych środowisk) zdziwienie, zaskoczenie (dla niektórych środowisk) Pozostałe są kulturowo zmienne, w tym i „obojętność” Facial expressions of blind and normally sighted children are similar; thus emotional expression (smiling) is probably inherited and not learned

Dlaczego ważne jest rozpoznawanie stanów emocjonalnych w dwustronnej komunikacji? Człowiek w codziennym komunikowaniu z otoczeniem wyraża swoje emocje Zrozumienie emocji i znajomość jak reagować w stosunku do ludzi wyrażających swoje emocje znacznie wzbogaca wzajemne oddziaływanie Example with the audience

Emocje w interakcji człowiek –komputer Znając emocje użytkownika system może się do niego lepiej dostosować Rozpoznając i reagując adekwatnie (!) do stanu emocjonalnego użytkownika system będzie oddziaływał na niego w sposób bardziej naturalny, przekonywujący i wiarygodny

Sposoby wyrażania emocji emocje znajdują swoje odzwierciedlenie w głosie, ruchach rąk i ciała, ale dla niektórych emocji, przede wszystkim w mimice twarzy

Multimodalna analiza twarzy Oparta jest na analizie: Informacji o kolorze skóry Cechy elipsoidalne głowy Gradient luminancji/chrominancji Wstępny podział obszarów twarzy Określenie cech wyrazu twarzy Analiza sygnałów mikrofonowych …

Multimodalne środki emocji i jej rozpoznawanie Obiekt analizy i rozpoznawania: twarz (wyraz, mimika) + mowa (głos, treść) Rozpoznawanie emocji  systemy inteligentne (nadmiarowość, niepewność, niespójność informacji) Modelowanie emocji  synteza emocji Interakcja  rzeczywiste emocje  baza danych

Rozpoznawanie emocji w systemie dialogowym

Analiza semantyczna emocji Interpretacja Radość ... Złość ... Wstręt Grupowanie kategory-zacja Positive ... Negative ... Disgust Grupowanie frazy Good I_like ... I_hate Bad Adhorrence ... Przetwarzanie ciągów kategoryzacja first_person cannot ... stand bad ... disgusting Grupowanie ... ... ... ... ... słowa I can‘t stand nasty Wyszukiwanie słów kluczowych Poziom wejściowy I can‘t stand this nasty every tray traffic-jam Leksykon wyrażeń emocjonalnych

Etapy multimodalnej analizy i syntezy emocji Multimodalna analiza twarzy mówiącej osoby (tzw. Face Tracking) Ekstrakcja cech mimiki twarzy Ekstrakcja cech głosu Multimodalne rozpoznawanie emocji Multimodalna synteza emocji

Anatomia a mimika twarzy Ekman opracował system kodowania ruchów mięśni twarzy -Facial Action Coding System (FACS): Opis mięśni twarzy szczęki i języka oparty na analizie anatomii twarzy

Określenie cech wyrazu twarzy Detekcja i śledzenie zmian cech Lokalizacja : w procesie uczenia i/lub poprzez heurystykę Ekstrakcja: wykorzystanie wiedzy a priori Informacje dotyczące kształtu/konturu Chwilowe zmarszczki …

Określenie obszarów ekstrakcji cech wyrazu twarzy

Ekstrakcja cech wyrazu twarzy - kontury

”Maska emocjonalna”

Wektorowy opis mimiki twarzy wektory przesunięcia określonych elementów twarzy

Archetypy ekspresji wizerunku Zwane są uniwersalnymi, bowiem są jednoznacznie rozpoznawane niezależnie od strefy kulturowej Source: F. Parke and K. Waters, Computer Facial Animation, A K Peters

Emocje niesione przez wyraz twarzy – synteza Niektóre emocje w wyrazie twarzy są niemal bezbłędnie rozpoznawane

Stopniowanie emocji w wizerunku twarzy