Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

1 Dwięk w multimediach Ryszard Gubrynowicz

Podobne prezentacje


Prezentacja na temat: "1 Dwięk w multimediach Ryszard Gubrynowicz"— Zapis prezentacji:

1

2 1 Dwięk w multimediach Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl

3 2 Zaliczenie przedmiotu Egzamin testowy na zakończenie. Obecność na wykładach będzie miała wpływ na końcową ocenę Konsultacje Środa – godz 17.00 – 18.00....... (po uprzednim umówieniu się) Pokój 302

4 3 Literatura W języku polskim b. uboga Podstawy akustyki: Korbecki M., Komputerowe Przetwarzanie Dźwięku, Mikom 1999, rozdz. 1-5 Russel D. Acoustics and animation, http://www.kettering.edu./~drussell/Demos.html http://www.kettering.edu./ http://faculty.washington.edu/dillon/PhonReso urces/PhonResources.html#Speech http://faculty.washington.edu/dillon/PhonReso urces/PhonResources.html#Speech Rosch W. L. (1997) Biblia o multimediach: multimedia od A do Z, Intersoftland, Warszawa 1997

5 4 Literatura c.d. Analiza sygnału mowy: Dukiewicz L., Fonetyka [w] Fonetyka i Fonologia (red. H. Wróbel), Gramatyka współczesnego języka polskiego, wyd. Instytutu Języka Polskiego PAN, Kraków, 1995 (rozdz. 4,5) Tadeusiewicz R., Sygnał Mowy, WKiŁ, Warszawa 1988 Borden G.J., Harris K.S., Speech Science Primer, 5 th ed., Williams&Wilkins, Baltimore, 2007

6 5 Literatura c.d. Dukiewicz L., Fonetyka.... Wierzchowska B., Fonetyka i fonologia języka polskiego, Ossolineum, Warszawa,1980 Huckvale M., Acoustics of Speech&Hearing, http://www.phon.ucl.ac.uk/courses/spsci/b214 /week.htm Cechy fonetyczno-akustyczne dźwięków mowy

7 6 Kolejne wykłady będzie można pobierać z sieci pod adresem: http://www.pjwstk.edu.pl/~rgubryn/PJWSTK1.zip /PJWSTK2.zip …….. Uwaga na duże litery !

8 7 Znaczenie terminu multimedia Multimedia jest pojęciem bardzo szerokim Na ogół niezbyt dokładnie zdefiniowane i zależne od punktu widzenia. Multi = wiele Media = l. mnoga medium = średni, środkowy, nośnik, środowisko, łącznik (mass-medium = środek masowego przekazu) Wiele środków równoczesnego przekazu

9 8 Elementy przekazu multimedialnego Termin multimedia opisuje szereg różnych cyfrowych technologii umożliwiających połączenie mediów wizualnych i dźwiękowych, w wyniku czego uzyskuje się złożone środki wyrazu. Środki wyrazu (proste): wideo (obraz ruchomy), dźwięk, animacja, grafika, tekst.

10 9 Cyfrowe Multimedia Czym jest technologia cyfrowych multimediów? Jest to dziedzina, obejmująca integrację informacji tekstowej, graficznej, dźwiękowej, obrazu (stałego i ruchomego) animacji, i każdego innego medium, w którym dowolny typ informacji może być prezentowany, zapamiętywany i cyfrowo przetwarzany. F. Fluckiger Komputer jest jedynym urządzeniem umożliwiającym tzw. przekaz multimedialny.

11 10 Podstawowe cechy systemów multimedialnych -komputerowo sterowane (przez jeden lub wiele komputerów) -zintegrowane (wszystkie środki wyrazu znajdują się w postaci cyfrowej na tej samej platformie technicznej) -informacja w postaci cyfrowej -zapewniona jest interaktywność Nb. odtwarzacz CD nie jest urządzeniem multimedialnym

12 11 Równoległość przekazu w systemach multimedialnych Cecha ta występuje w dwóch formach: a)kilka mediów równolegle oddziałuje na odbiorcę b) na odbiorcę oddziałują dwa (lub więcej) środki wyrazu tego samego typu, np. dwie sekwencje filmowe, dwa teksty itp. w jednej sceni e.

13 12 Interaktywność w systemach multimedialnych Ta cecha wyróżnia przekaz multimedialny od innych form przekazu medialnego (film, TV, wideo). Charakterystyczną cechą multimediów jest ich interaktywność – użycie myszki, klawiszy (tekst), ekranu dotykowego, głosu, itp. przez użytkownika pozwala wpływać na postać prezentowanej mu informacji.

14 13 Formy interaktywności Odbiorca przekazu multimedialnego może: określić czas trwania i częstotliwość powtarzania określonego elementu prezentacji określić własną drogę przeglądania prezentacji (nawigacja otwarta) wprowadzić dane mające wpływ na dalszy przebieg prezentacji (pola wyboru, pola tekstowe) grupować wedle swego uznania różne elementy prezentacji (drag and drop) zmieniać elementy prezentacji (zmieniać kształt, ścieżkę dźwiękową, zamalowywać, itp.) wykonywać operacje na obiektach (obracać, przesuwać) poruszać się po wirtualnych pomieszczeniach Na podstawie akcji odbiorcy system określa dalszy przebieg prezentacji

15 14 Pragmatyczna definicja multimediów Przekaz jest multimedialny, gdy spełnia następujące warunki: a)jednocześnie wykorzystane są różne środki wyrazu b)wszystkie środki wyrazu znajdują się w postaci cyfrowej na tej samej platformie c)wszystkie środki wyrazu są połączone w jedną prezentację d)kilka różnych mediów równocześnie oddziałuje na odbiorcę e)użytkownik może aktywnie wpływać na przebieg oraz treść prezentacji (interaktywność)

16 15 Integracja Multimedialny system winien dawać możliwość generowania, gromadzenia, przesyłania i prezentacji informacji w sposób stanowiący jedną całość z punktu widzenia sterowania i komunikacji. –Na poziomie komputera (integracja komputerowa) –Na poziomie sieci (integracja sieciowa)

17 16 Integracja Pamięć dyskowa Integracja gromadzenia Integracja rejestracji Kamera video Pojedyncza sieć Integracja sieciowa Integracja prezentacji Wbudowany mikrofon Okno video Okno tekstowe text CD-ROM

18 17 Przykłady integracji sieciowej Video telekonferencje. Zdalne nauczanie, e-gospodarka (e-learning, e-commerce). Telemedycyna. Środowiska współpracy, zespoły robocze. Zarządzanie wiedzą, Przeszukiwanie (b.dużych) baz danych video i grafiki pod kątem wybranych obiektów wizualnych Rozszerzona rzeczywistość (augmented reality): na rzeczywisty obraz nakładane są obiekty w postaci komputerowej grafiki i wideo z uzupełniającą informacją o danej scenie

19 18 Ośrodek - percepcja

20 19 Człowiek jako odbiorca informacji multisensorycznej Co najmniej jeden z narządów zmysłów jest zaangażowany w komunikacji interaktywnej np. przez dźwięki, tekst, hypertekst, animacja, video, gesty, obrazy, dotyk

21 20 Narządy zmysłów w codziennym oddziaływaniu otoczenia na człowieka Wzrok Słuch Dotyk Smak Powonienie Każdy z narządów z osobna jest ważny, lecz dopiero razem umożliwiają pełną interakcję człowieka z otoczeniem. Komputery nie umożliwiają tak wszechstronnej interaktywności, ograniczając się do oddziaływania na pierwsze z 3 wyżej wymienionych narządów zmysłów.

22 21 Cechy bodźców rozróżniane przez wzrok (w zakresie widzialnym) intensywność, kolor, obrazy 2D i 3D kształty (znaki) zmiany w czasie (szybkość rejestracji do ok. 60- 100 na sek)........ czułość wzroku – w bezksiężycową, bezchmurną noc podobno można spostrzec światło zapałki z odległości 1,6 km?.

23 Czułość oka 22

24 23 Cechy bodźców rozróżniane przez słuch Zakres częstotliwości – 20 Hz-16000 kHz ( 17,2 m- 2,15 cm) Rozróżnianie jednocześnie występujących składowych częstotliwościowych Reaguje na zmianę częstotliwości Czuły jest na przestrzenne własności dźwięku (położenie źródła, +echo, pogłos itp.) Barwa (rozróżnianie instrumentów muzycznych) Dźwięki, mowa, muzyka, hałas

25 24 Cechy bodźców rozróżniane przez dotyk - skóra, język, śluzówka itp. Nacisk Ruchy skóry Różnice temperatury Drgania Ból Szok elektryczny

26 25 Smak (język) i powonienie Słodki Kwaśny Gorzki Słony Nieokreślony Człowiek jest w stanie rozróżnić ok. 10 000 różnych zapachów

27 26 Media w transmisji sygnałów Zadaniem technologii mediów jest próba zastąpienia rzeczywistych bodźców sygnałami medialnymi wywołującymi podobne wrażenia u odbiorcy, jak zarejestrowane wcześniej bodźce.

28 27 Klasyfikacja mediów Pojedyncze obrazy Tekst Zarejestrowane z otoczenia Zsyntezowane przez komputery ciągłe (w czasie) Dyskretne (w przestrzeni) Grafika Animacje Ruchome obrazy Dźwięk Czas/przestrzeń Źródło Mowa Muzyka

29 28 Sprzęt i oprogramowanie w multimediach Sprzęt komputerowy i odpowiednie oprogramowanie stanowią warunek konieczny istnienia multimediów; są podstawowym narzędziem do emisji przekazu multimedialnego. Są też narzędziem do realizacji konwergencji mediów, czyli do łączenia różnych źródeł przekazu w jednym miejscu i wzajemnego ich przenikania oraz uzupełniania (więcej na ten temat: np. Biblia o multimediach, Rosh 1997)

30 29 Multimodalny – multimedialny Systemy multimodalne (na ogół dialogowe) wykorzystują więcej niż jeden zmysł (lub sposób ) w interakcji z użytkownikiem np. wizualny i słuchowy zmysł: procesor tekstów może jednocześnie wyświetlać wyrazy na monitorze i generować ich postać dźwiękową Systemy multimedialne wykorzystują różne media do przekazywania informacji np. komputerowy system wspomagający uczenie: może stosować video, animacje, tekst i nieruchome obrazy: różne media, oddziaływujące wszystkie na jeden receptor wzrokowy. może również wykorzystać dźwięki, zarówno mowę jak i dźwięki nieartykułowane (chrząkanie, gwizd itp., czy otoczenia), wówczas mamy 2 dodatkowe media oddziaływujące receptor słuchowy na dwa różne sposoby. Przykład systemu dialogowego: na wejściu – mowa, gesty, ekspresja twarzy; na wyjściu – kombinacja obrazów, animacji i mowy syntetycznej

31 30 Dźwięk w multimediach Muzyka Dźwięki natury i otoczenia Paradźwięki generowane przez człowieka (chrząkanie, klaskanie, kroki itp.) Mowa i komputery: –Kodowanie sygnału mowy W komunikacji komputerów z użytkownikami –Rozpoznawanie i rozumienie mowy przez komputer –Synteza mowy przez komputer

32 31 Interaktywne edytory sygnałów dźwiękowych Jest to oprogramowanie umożliwiające wizualizację, odsłuchiwanie i przetwarzanie sygnałów akustycznych rejestrowanych przez mikrofon lub inne przetworniki. Istotną cechą edytorów audio tego typu jest to, że za ich pomocą możemy modyfikować strukturę zapisanego w formie cyfrowej dźwięku, wprowadzać dodatkowe opisy poszczególnych jego segmentów. AudacityAudacity ( Open Source ) adobe R Audition WaveSurfer WaveSurfer ( Open Source ) – Waves+ (Entropic) Praat Praat ( Open Source )

33 32 Audacity

34 33 Audition

35 34 WaveSurfer

36 35 Praat

37 36 Odszumianie Odszumianie – usuwanie z nagrań niepożądanych dźwięków Zależnie od rodzaju i przeznaczenia nagrania zakłóceniami mogą być szumy otoczenia, syki, gwizdy, mowa, muzyka, trzaski, stuki oraz szumy i zakłócenia typu elektrycznego (np. przydźwięk), Adaptacyjne odszumianie

38 37 Dlaczego mowa w systemach multimedialnych ? –Naturalność komunikacji: Mowa jest najbardziej skutecznym (i na ogół najszybszym), łatwym i powszechnym sposobem porozumiewania się –Skuteczność: W niektórych sytuacjach jest jedynym, możliwym środkiem porozumienia się –Ekspresja: Pewne sytuacje, stany emocjonalne, nie są do oddania bez użycia mowy (języka naturalnego) –Niekiedy jedyny środek komunikacji bezpośredniej: Telefon, radiotelefon itp. z osobami prowadzącymi pojazdy, maszyny itp.

39 38 Układ akustyczny odbiornik - ośrodek - źródło

40 39 Podstawą wszelkiej komunikacji człowiek-człowiek jest język Język – system znaków i określonych reguł fonologicznych, syntaktycznych i semantycznych rządzących kombinacją tych znaków Mowa – język mówiony Pismo – język pisany, obrazki Miganie – język migowy (polski, norweski, niemiecki itp.)

41 40 Mowa jest jednym z wielu sposobów przekazywania informacji. Specyfiką mowy jest to, że ma postać dźwiękową. Jest zazwyczaj kodowana w postaci ciągu dźwięków o określonych charakterystykach. Kod jest specyficzny dla danego języka, co powoduje, że każdy język ma określony dla siebie zbiór dźwięków mowy. Formalna definicja mowy

42 41 W komunikacji człowiek - otoczenie Mówienie jest szybsze, niż pisanie (wprawna osoba ok. 100 zn/s, słaba - 30 zn/s) Słuchanie jest łatwiejsze, niż czytanie Pokazanie jest efektywniejsze, niż opisanie

43 42 Schemat komunikacji werbalnej

44 43 Tor audio-wizualny mowy

45 44 Informacje niesione przez sygnał mowy Informacje lingwistyczne Informacje artykulacyjne (fonetyczne) Informacje emocjonalne Informacje osobnicze Informacje o zaburzeniach organicznych mowy Informacje o zaburzeniach neurogennych mowy Informacje społeczne, kulturowe, nawykowe, itp. Informacje o otoczeniu – hałasy, pogłos itp

46 45 Wszystko jest jasne (znaczenie informacji lingwistycznych) Zogndie z nanjwoymszi bnaiadmai perzporawdzomyni na btyryijskch uneruwstytetiach nie ma znczeania, w jaikej kloejnśoci nazpsiemy lietry wenątwrz wryazu, blye tlkyo pirwesza i otstaina lreita błyy na soiwch mijsecach. Rtszea mżoe być dolnwoie poszamienina, a mmio to bedęzimy w stniae pczyrzteać tkest bez wikszęego prleobmu. Diezje się tak dlteago, że nie cztaymy kżdeaj z lteir odelndziie, ale wrayz jkao cłoaść. Eric Campbell

47 46 Mowa w systemie dialogowym Synteza mowy Rozpoznawanie Interpretacja semantyczna Generacja odpowiedzi Organizacja dialogu Interpretacja wypowiedzi UżytkownicyUżytkownicy

48 47 Architektura systemu dialogowego

49 48 Parametry sygnału mowy oscylogram widmo + formanty poziom wysokość głosu iloczas

50 49 Wielowarstwowy opis sygnału mowy

51 50 Potencjalne zastosowania mowy zabawki Palmtopy Komórki Kioski informacyjne Zastosowania w środkach lokomocji Urządzenia audio/video

52 51 Pierwsze handlowe urządzenie czytające dla niewidomych (1976) – ok. 50 000$ Print-to-speech machine

53 52 Synteza mowy

54 53 Podstawowe elementy systemu TTS

55 54 Moduł analizy tekstu Moduł ten powinien dostarczyć całą informację dotyczącą tekstu, nie będącą w swej naturze fonetyczną, mającą jednak wpływ na działanie modułu fonetycznego W najprostszych systemach moduł ten dokonuje konwersji znaków nieortograficznych np. liczb. Bardziej rozwinięte systemy dokonują analizy znaków takich jak spacje, znaków przestankowych itp., w celu dokonania bardziej szczegółowej analizy syntaktycznej i semantycznej tekstu podzielonego na zdania. Analiza ta jest prowadzona pod kątem określenia tych atrybutów, które mogą wspomóc analizę fonetyczną i generację cech prozodycznych

56 55 Analiza tekstu Tekst może być analizowany jako jedna z form bardzo efektywnego kodowania mowy z dużą jednak możliwością jego interpretowania pod względem stylu, intonacji, tempa, rytmu itp. Relacja między tekstem pisanym i mówionym jest jednak często niezwykle złożona, szczególnie, gdy mamy do czynienia z tekstami z dodatkowymi opisami, np. przesyłanymi via Internet. Moduł analizy tekstu określa typ i strukturę przetwarzanego dokumentu, dokonuje konwersji nieortograficznych znaków, rozbioru gramatycznego, analizy syntaktycznej, leksykalnej.

57 56 Przykład normalizacji tekstu Np. moduł analizy lingwistycznej musi dokonać interpretacji znaku przestankowego kropki, czy jest końcem zdania, czy elementem skrótu. W doświadczeniach finansowanych przez MEN zastosowano 7% roztwór HCl. W doświadczeniach finansowanych przez Ministerstwo Edukacji i Nauki zastosowano siedmioprocentowy roztwór kwasu solnego

58 57 Normalizacja tekstu polega na ujednoliceniu konwersji wszystkich symboli, liczb i znaków nieortograficznych w transkrypcji ortograficznej, w postaci umożliwiającej następnie ich konwersję na ciąg znaków transkrypcji fonetycznej Analiza lingwistyczna tekstu obejmuje wybrane elementy syntaktyczne i semantyczne takie jak słowo, fraza, zdanie, wypowiedź by ocenić ich wpływ na samą wymowę i cechy prozodyczne Normalizacja tekstu i analiza lingwistyczna

59 58 Moduł analizy tekstu i analizy fonetycznej Morfologia – budowa i odmiana wyrazów

60 59 Analiza fonetyczna Działanie modułu fonetycznego ma na celu dokonanie konwersji wyrazów przedstawionych w postaci kodu ortograficznego na kod fonetyczny z dodatkowymi informacjami (np. dotyczącymi akcentu), określającymi ich wymowę. Analiza morfologiczna umożliwia określenie wymowy deklinacyjnych i koniugacyjnych form wyrazów znajdujących się w słowniku, a przede wszystkim zmianę znaczenia spowodowaną zmianą dźwięku mowy lub intonacją.

61 60 Moduł syntezy mowy Synteza konkatenacyjna Moduł ten generuje akustyczny sygnał mowy, na podstawie sekwencji określonych fonemów uzyskanych na podstawie przetwarzania tekstu, wzorców iloczasowych, konturu melodycznego i obwiedni amplitudy

62 61 Schemat systemu syntezy konkatenacyjnej

63 62 Problemy w syntezie konkatenacyjnej Wybór jednostek – głoski, difony(diady), sylaby, wyrazy? Jak stworzyć bazę jednostek? Jakie powinny być jej rozmiary? Jak określić optymalny system wyboru i łączenia ze sobą segmentów? Jak modyfikować cechy prozodyczne stworzonego łańcucha segmentów?

64 63 Difony – wady i zalety Difon – element zawierający w całości przejście między głoskami, poprzedzone częścią głoski poprzedzającej i zakończone częścią głoski następującej

65 64 Montowanie wypowiedzi z difonów Difon –eS- Szczebrzeszyn Zamiana kodu ortograficznego na kod fonematyczny: _S StS tSe eb bZ ZI In n_

66 65 Przykłady syntezy konkatenacyjnej MBROLA-PL MBROLA-D

67 66 Konwersja tekstu na mowę........ KONWÓJ WERSJA ATEST TEKST TUNEL NAMOWA TRAWĘ KONW WERSJA ATEATE EKST TUNTUN NAMOW WĘWĘ System optymalnej selekcji segmentów

68 67 Czy może syntezator coś zaśpiewać ?

69 68 BALDI http://cslu.cse.ogi.edu/toolkit/download/ index.html


Pobierz ppt "1 Dwięk w multimediach Ryszard Gubrynowicz"

Podobne prezentacje


Reklamy Google