Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałDominik Cal Został zmieniony 11 lat temu
1
Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl
Dwięk w multimediach Ryszard Gubrynowicz
2
Zaliczenie przedmiotu
Egzamin testowy na zakończenie. Obecność na wykładach będzie miała wpływ na końcową ocenę Konsultacje Środa – godz – (po uprzednim umówieniu się) Pokój 302
3
Literatura W języku polskim b. uboga Podstawy akustyki:
Rosch W. L. (1997) Biblia o multimediach: multimedia od A do Z, Intersoftland, Warszawa 1997 Podstawy akustyki: Korbecki M., Komputerowe Przetwarzanie Dźwięku, Mikom 1999, rozdz. 1-5 Russel D. Acoustics and animation,
4
Literatura c.d. Analiza sygnału mowy:
Dukiewicz L., Fonetyka [w] Fonetyka i Fonologia (red. H. Wróbel), Gramatyka współczesnego języka polskiego, wyd. Instytutu Języka Polskiego PAN, Kraków, 1995 (rozdz. 4,5) Tadeusiewicz R., Sygnał Mowy, WKiŁ, Warszawa 1988 Borden G.J., Harris K.S., Speech Science Primer, 5th ed., Williams&Wilkins, Baltimore, 2007
5
Literatura c.d. Cechy fonetyczno-akustyczne dźwięków mowy
Dukiewicz L., Fonetyka.... Wierzchowska B., Fonetyka i fonologia języka polskiego, Ossolineum, Warszawa,1980 Huckvale M., Acoustics of Speech&Hearing,
6
Kolejne wykłady będzie można pobierać z sieci pod adresem:
/PJWSTK2.zip …….. Uwaga na duże litery !
7
Znaczenie terminu multimedia
Multimedia jest pojęciem bardzo szerokim Na ogół niezbyt dokładnie zdefiniowane i zależne od punktu widzenia. Multi = wiele Media = l. mnoga medium = średni, środkowy, nośnik, środowisko, łącznik (mass-medium = środek masowego przekazu) Wiele środków równoczesnego przekazu
8
Elementy przekazu multimedialnego
Termin multimedia opisuje szereg różnych cyfrowych technologii umożliwiających połączenie mediów wizualnych i dźwiękowych, w wyniku czego uzyskuje się złożone środki wyrazu. Środki wyrazu (proste): wideo (obraz ruchomy), dźwięk, animacja, grafika, tekst.
9
Cyfrowe Multimedia Czym jest technologia cyfrowych multimediów?
”Jest to dziedzina, obejmująca integrację informacji tekstowej, graficznej, dźwiękowej, obrazu (stałego i ruchomego) animacji, i każdego innego medium, w którym dowolny typ informacji może być prezentowany, zapamiętywany i cyfrowo przetwarzany.” F. Fluckiger Komputer jest jedynym urządzeniem umożliwiającym tzw. przekaz multimedialny.
10
Podstawowe cechy systemów multimedialnych
komputerowo sterowane (przez jeden lub wiele komputerów) zintegrowane (wszystkie środki wyrazu znajdują się w postaci cyfrowej na tej samej platformie technicznej) informacja w postaci cyfrowej zapewniona jest interaktywność Nb. odtwarzacz CD nie jest urządzeniem multimedialnym
11
Równoległość przekazu w systemach multimedialnych
Cecha ta występuje w dwóch formach: kilka mediów równolegle oddziałuje na odbiorcę na odbiorcę oddziałują dwa (lub więcej) środki wyrazu tego samego typu, np. dwie sekwencje filmowe, dwa teksty itp. w jednej scenie.
12
Interaktywność w systemach multimedialnych
Ta cecha wyróżnia przekaz multimedialny od innych form przekazu medialnego (film, TV, wideo). Charakterystyczną cechą multimediów jest ich interaktywność – użycie myszki, klawiszy (tekst), ekranu dotykowego, głosu, itp. przez użytkownika pozwala wpływać na postać prezentowanej mu informacji.
13
Formy interaktywności
Odbiorca przekazu multimedialnego może: określić czas trwania i częstotliwość powtarzania określonego elementu prezentacji określić własną drogę przeglądania prezentacji (nawigacja otwarta) wprowadzić dane mające wpływ na dalszy przebieg prezentacji (pola wyboru, pola tekstowe) grupować wedle swego uznania różne elementy prezentacji (drag and drop) zmieniać elementy prezentacji (zmieniać kształt, ścieżkę dźwiękową, zamalowywać, itp.) wykonywać operacje na obiektach (obracać, przesuwać) poruszać się po wirtualnych pomieszczeniach Na podstawie akcji odbiorcy system określa dalszy przebieg prezentacji
14
Pragmatyczna definicja multimediów
Przekaz jest multimedialny, gdy spełnia następujące warunki: jednocześnie wykorzystane są różne środki wyrazu wszystkie środki wyrazu znajdują się w postaci cyfrowej na tej samej platformie wszystkie środki wyrazu są połączone w jedną prezentację kilka różnych mediów równocześnie oddziałuje na odbiorcę użytkownik może aktywnie wpływać na przebieg oraz treść prezentacji (interaktywność)
15
Integracja Multimedialny system winien dawać możliwość generowania, gromadzenia, przesyłania i prezentacji informacji w sposób stanowiący jedną całość z punktu widzenia sterowania i komunikacji. Na poziomie komputera (integracja komputerowa) Na poziomie sieci (integracja sieciowa)
16
Integracja Integracja prezentacji Integracja gromadzenia CD-ROM
Okno video Pamięć dyskowa text Okno tekstowe Integracja rejestracji Integracja sieciowa Kamera video Pojedyncza sieć Wbudowany mikrofon
17
Przykłady integracji sieciowej
Video telekonferencje. Zdalne nauczanie, e-gospodarka (e-learning, e-commerce). Telemedycyna. Środowiska współpracy, zespoły robocze. Zarządzanie wiedzą, Przeszukiwanie (b.dużych) baz danych video i grafiki pod kątem wybranych obiektów wizualnych Rozszerzona rzeczywistość (augmented reality): na rzeczywisty obraz nakładane są obiekty w postaci komputerowej grafiki i wideo z uzupełniającą informacją o danej scenie Czym jest Rzeczywistość Rozszerzona (Augmented Reality) Wyraźne rozdzielanie tego, co prawdziwe, od tego, co wygenerowane przez komputer, niekoniecznie jest strategią oczywistą i optymalną. Po co mamy zerkać raz na mapę, raz na otaczający nas krajobraz, by ustalić, gdzie jesteśmy? Czy rzeczywiście czytanie w muzeum przewodnika jest najwygodniejszą metodą sprawdzenia, co przedstawia dziwaczna rzeźba? A to irytujące uczucie, gdy usiłujemy sobie przypomnieć, skąd znamy mijaną właśnie na ulic osobę? Cóż byśmy wtedy dali za szybkie zerknięcie do jakiejś obrazkowej bazy danych na temat wszystkich poznanych kiedykolwiek osób! Rozwiązaniem tych niedogodności jest dodanie do tego, co widzimy własnymi oczami, informacji płynących z noszonego stale przy sobie komputera osobistego. Nie trzeba przy tym wcale posuwać się do skrajności jak i całkowicie rezygnować z korzystania z naturalnych zmysłów. Wystarczy je jedynie wzbogacić, dodając np. niewielki projektor, który będzie wyświetlał na zwykłych okularach opisy mijanych budynków czy ludzi w postaci np. komiksowych dymków. Ba, można nawet dodać kilka postaci, których zwykle nie mijamy na ulicy. I to właśnie robi Rzeczywistość Rozszerzona. W systemach rozszerzonej rzeczywistości (AR) informacje generowane przez komputer są dodawane do "zwykłych" bodźców odbieranych przez zmysły obserwatora. Podczas gdy wirtualna rzeczywistość zmierza do zastąpienia realnego Świata, rzeczywistość rozszerzona go uzupełnia. Obecne osiągnięcia techniczne mogą już wkrótce doprowadzić do stworzenia systemów rozszerzonej rzeczywistości przeznaczonych dla chirurgów, serwisantów urządzeń, żołnierzy, turystów i graczy komputerowych. Kiedyś takie systemy prawdopodobnie staną się powszechne. Augmented Reality (AR) w przeciwieństwie do Virtual Reality (VR) nie polega na tym, że komputer tworzy rzeczywistość od podstaw, lecz jedynie dodaje do niej pewne elementy, widoczne wyłącznie dla użytkownika. Najlepszą metaforą byłyby tu filmy DVD czy DivX, na które nakłada się warstwę napisów. Technologia podobna do AR stosowana jest od lat w hełmach pilotów wojskowych (tzw. HUD - Head Up Display), lecz tam dane wyświetlane przed oczami żołnierza powtarzają jedynie wskazania urządzeń pokładowych samolotu. Tymczasem w rzeczywistości rozszerzonej chodzi o realizowane przez komputer ubraniowy rozpoznanie obiektów, ich identyfikację oraz wzbogacenie o opisy, zaczerpnięte z wewnętrznej bazy danych
18
Ośrodek - percepcja
19
Człowiek jako odbiorca informacji multisensorycznej
Co najmniej jeden z narządów zmysłów jest zaangażowany w komunikacji interaktywnej np. przez dźwięki, tekst, hypertekst, animacja, video, gesty, obrazy, dotyk
20
Narządy zmysłów w codziennym oddziaływaniu otoczenia na człowieka
Wzrok Słuch Dotyk Smak Powonienie Każdy z narządów z osobna jest ważny, lecz dopiero razem umożliwiają pełną interakcję człowieka z otoczeniem. Komputery nie umożliwiają tak wszechstronnej interaktywności, ograniczając się do oddziaływania na pierwsze z 3 wyżej wymienionych narządów zmysłów.
21
Cechy bodźców rozróżniane przez wzrok
(w zakresie widzialnym) intensywność, kolor, obrazy 2D i 3D kształty (znaki) zmiany w czasie (szybkość rejestracji do ok na sek) czułość wzroku – w bezksiężycową, bezchmurną noc podobno można spostrzec światło zapałki z odległości 1,6 km?.
22
Czułość oka
23
Cechy bodźców rozróżniane przez słuch
Zakres częstotliwości – 20 Hz kHz (l =17,2 m- 2,15 cm) Rozróżnianie jednocześnie występujących składowych częstotliwościowych Reaguje na zmianę częstotliwości Czuły jest na przestrzenne własności dźwięku (położenie źródła, +echo, pogłos itp.) Barwa (rozróżnianie instrumentów muzycznych) Dźwięki, mowa, muzyka, hałas
24
Cechy bodźców rozróżniane przez dotyk - skóra, język, śluzówka itp.
Nacisk Ruchy skóry Różnice temperatury Drgania Ból Szok elektryczny
25
Smak (język) i powonienie
Słodki Kwaśny Gorzki Słony Nieokreślony Człowiek jest w stanie rozróżnić ok różnych zapachów
26
Media w transmisji sygnałów
Zadaniem technologii mediów jest próba zastąpienia rzeczywistych bodźców sygnałami medialnymi wywołującymi podobne wrażenia u odbiorcy, jak zarejestrowane wcześniej bodźce.
27
Klasyfikacja mediów ciągłe (w czasie) Dźwięk Ruchome obrazy Mowa
Czas/przestrzeń ciągłe (w czasie) Dźwięk Ruchome obrazy Mowa Muzyka Animacje Dyskretne (w przestrzeni) Pojedyncze obrazy Tekst Grafika Źródło Zarejestrowane z otoczenia Zsyntezowane przez komputery
28
Sprzęt i oprogramowanie w multimediach
Sprzęt komputerowy i odpowiednie oprogramowanie stanowią warunek konieczny istnienia multimediów; są podstawowym narzędziem do emisji przekazu multimedialnego. Są też narzędziem do realizacji konwergencji mediów, czyli do łączenia różnych źródeł przekazu w jednym miejscu i wzajemnego ich przenikania oraz uzupełniania (więcej na ten temat: np. Biblia o multimediach, Rosh 1997)
29
Multimodalny – multimedialny
Systemy multimodalne (na ogół dialogowe) • wykorzystują więcej niż jeden zmysł (lub sposób ) w interakcji z użytkownikiem • np. wizualny i słuchowy zmysł: procesor tekstów może jednocześnie wyświetlać wyrazy na monitorze i generować ich postać dźwiękową Systemy multimedialne • wykorzystują różne media do przekazywania informacji • np. komputerowy system wspomagający uczenie: może stosować video, animacje, tekst i nieruchome obrazy: różne media, oddziaływujące wszystkie na jeden receptor wzrokowy. może również wykorzystać dźwięki, zarówno mowę jak i dźwięki nieartykułowane (chrząkanie, gwizd itp., czy otoczenia), wówczas mamy 2 dodatkowe media oddziaływujące receptor słuchowy na dwa różne sposoby. Multimedialny – wykorzystuje różne media oddziaływujące na jeden zmysł, multimodalny – różne media (może być też i jedno) oddziaływujące na wiele zmysłów jednocześnie. W praktyce bardziej rozwinięte systemy są multimodalne/multimedialne. Przykład systemu dialogowego: na wejściu – mowa, gesty, ekspresja twarzy; na wyjściu – kombinacja obrazów, animacji i mowy syntetycznej
30
Dźwięk w multimediach Muzyka Dźwięki natury i otoczenia
Paradźwięki generowane przez człowieka (chrząkanie, klaskanie, kroki itp.) Mowa i komputery: Kodowanie sygnału mowy W komunikacji komputerów z użytkownikami Rozpoznawanie i rozumienie mowy przez komputer Synteza mowy
31
Interaktywne edytory sygnałów dźwiękowych
Jest to oprogramowanie umożliwiające wizualizację, odsłuchiwanie i przetwarzanie sygnałów akustycznych rejestrowanych przez mikrofon lub inne przetworniki. Istotną cechą edytorów audio tego typu jest to, że za ich pomocą możemy modyfikować strukturę zapisanego w formie cyfrowej dźwięku, wprowadzać dodatkowe opisy poszczególnych jego segmentów. Audacity (Open Source) adobeRAudition™ WaveSurfer (Open Source) – Waves+ (Entropic) Praat (Open Source)
32
Audacity
33
Audition
34
WaveSurfer
35
Praat
36
Adaptacyjne odszumianie
Odszumianie – usuwanie z nagrań niepożądanych dźwięków Zależnie od rodzaju i przeznaczenia nagrania zakłóceniami mogą być szumy otoczenia, syki, gwizdy, mowa, muzyka, trzaski, stuki oraz szumy i zakłócenia typu elektrycznego (np. „przydźwięk”), Adaptacyjne odszumianie
37
Dlaczego mowa w systemach multimedialnych ?
Naturalność komunikacji: Mowa jest najbardziej skutecznym (i na ogół najszybszym), łatwym i powszechnym sposobem porozumiewania się Skuteczność: W niektórych sytuacjach jest jedynym, możliwym środkiem porozumienia się Ekspresja: Pewne sytuacje, stany emocjonalne, nie są do oddania bez użycia mowy (języka naturalnego) Niekiedy jedyny środek komunikacji bezpośredniej: Telefon, radiotelefon itp. z osobami prowadzącymi pojazdy, maszyny itp.
38
Układ akustyczny odbiornik - ośrodek - źródło
Trzy zasadnicze działy tematyczne będące przedmiotem wykładów DSM: akustyka mowy (z podstawami akustyki), propagacja dźwięku w otoczeniu (ośrodku), budowa narządu słuchu i percepcja dźwięku.
39
Podstawą wszelkiej komunikacji człowiek-człowiek jest język
Język – system znaków i określonych reguł fonologicznych, syntaktycznych i semantycznych rządzących kombinacją tych znaków Mowa – język mówiony Pismo – język pisany, obrazki Miganie – język migowy (polski, norweski, niemiecki itp.)
40
Formalna definicja mowy
Mowa jest jednym z wielu sposobów przekazywania informacji. Specyfiką mowy jest to, że ma postać dźwiękową. Jest zazwyczaj kodowana w postaci ciągu dźwięków o określonych charakterystykach. Kod jest specyficzny dla danego języka, co powoduje, że każdy język ma określony dla siebie zbiór dźwięków mowy.
41
W komunikacji człowiek - otoczenie
Mówienie jest szybsze, niż pisanie (wprawna osoba ok. 100 zn/s, słaba - 30 zn/s) Słuchanie jest łatwiejsze, niż czytanie Pokazanie jest efektywniejsze, niż opisanie
42
Schemat komunikacji werbalnej
43
Tor audio-wizualny mowy
44
Informacje niesione przez sygnał mowy
Informacje lingwistyczne Informacje artykulacyjne (fonetyczne) Informacje emocjonalne Informacje osobnicze Informacje o zaburzeniach organicznych mowy Informacje o zaburzeniach neurogennych mowy Informacje społeczne, kulturowe, nawykowe, itp. ♠ Informacje o otoczeniu – hałasy, pogłos itp
45
Wszystko jest jasne (znaczenie informacji lingwistycznych)
Zogndie z nanjwoymszi bnaiadmai perzporawdzomyni na btyryijskch uneruwstytetiach nie ma znczeania, w jaikej kloejnśoci nazpsiemy lietry wenątwrz wryazu, blye tlkyo pirwesza i otstaina lreita błyy na soiwch mijsecach. Rtszea mżoe być dolnwoie poszamienina, a mmio to bedęzimy w stniae pczyrzteać tkest bez wikszęego prleobmu. Diezje się tak dlteago, że nie cztaymy kżdeaj z lteir odelndziie, ale wrayz jkao cłoaść. Eric Campbell
46
Mowa w systemie dialogowym
Użytkownicy Rozpoznawanie Interpretacja Interpretacja mowy semantyczna wypowiedzi Synteza Generacja Organizacja mowy odpowiedzi dialogu
47
Architektura systemu dialogowego
Rozpoznawanie mowy Interpretacja mowy Organizator dialogu Generacja tekstu Synteza mowy
48
Parametry sygnału mowy
oscylogram widmo + formanty poziom wysokość głosu iloczas
49
Wielowarstwowy opis sygnału mowy
50
Potencjalne zastosowania mowy
Urządzenia audio/video Komórki Palmtopy Zastosowania w środkach lokomocji Kioski informacyjne zabawki
51
Pierwsze handlowe urządzenie czytające dla niewidomych (1976) – ok
Print-to-speech machine
52
Synteza mowy
53
Podstawowe elementy systemu TTS
54
Moduł analizy tekstu Moduł ten powinien dostarczyć całą informację dotyczącą tekstu, nie będącą w swej naturze fonetyczną, mającą jednak wpływ na działanie modułu fonetycznego W najprostszych systemach moduł ten dokonuje konwersji znaków nieortograficznych np. liczb. Bardziej rozwinięte systemy dokonują analizy znaków takich jak spacje, znaków przestankowych itp., w celu dokonania bardziej szczegółowej analizy syntaktycznej i semantycznej tekstu podzielonego na zdania. Analiza ta jest prowadzona pod kątem określenia tych atrybutów, które mogą wspomóc analizę fonetyczną i generację cech prozodycznych
55
Analiza tekstu Tekst może być analizowany jako jedna z form bardzo efektywnego kodowania mowy z dużą jednak możliwością jego interpretowania pod względem stylu, intonacji, tempa, rytmu itp. Relacja między tekstem pisanym i mówionym jest jednak często niezwykle złożona, szczególnie, gdy mamy do czynienia z tekstami z dodatkowymi opisami, np. przesyłanymi via Internet. Moduł analizy tekstu określa typ i strukturę przetwarzanego dokumentu, dokonuje konwersji nieortograficznych znaków, rozbioru gramatycznego, analizy syntaktycznej, leksykalnej.
56
Przykład normalizacji tekstu
„W doświadczeniach finansowanych przez MEN zastosowano 7% roztwór HCl.” W doświadczeniach finansowanych przez Ministerstwo Edukacji i Nauki zastosowano siedmioprocentowy roztwór kwasu solnego Np. moduł analizy lingwistycznej musi dokonać interpretacji znaku przestankowego „kropki”, czy jest końcem zdania, czy elementem skrótu.
57
Normalizacja tekstu i analiza lingwistyczna
Normalizacja tekstu polega na ujednoliceniu konwersji wszystkich symboli, liczb i znaków nieortograficznych w transkrypcji ortograficznej, w postaci umożliwiającej następnie ich konwersję na ciąg znaków transkrypcji fonetycznej Analiza lingwistyczna tekstu obejmuje wybrane elementy syntaktyczne i semantyczne takie jak słowo, fraza, zdanie, wypowiedź by ocenić ich wpływ na samą wymowę i cechy prozodyczne
58
Moduł analizy tekstu i analizy fonetycznej
Morfologia – budowa i odmiana wyrazów
59
Analiza fonetyczna Działanie modułu fonetycznego ma na celu dokonanie konwersji wyrazów przedstawionych w postaci kodu ortograficznego na kod fonetyczny z dodatkowymi informacjami (np. dotyczącymi akcentu), określającymi ich wymowę. Analiza morfologiczna umożliwia określenie wymowy deklinacyjnych i koniugacyjnych form wyrazów znajdujących się w słowniku, a przede wszystkim zmianę znaczenia spowodowaną zmianą dźwięku mowy lub intonacją.
60
Moduł syntezy mowy Moduł ten generuje akustyczny sygnał mowy, na podstawie sekwencji określonych fonemów uzyskanych na podstawie przetwarzania tekstu, wzorców iloczasowych, konturu melodycznego i obwiedni amplitudy Synteza konkatenacyjna
61
Schemat systemu syntezy konkatenacyjnej
62
Problemy w syntezie konkatenacyjnej
Wybór jednostek – głoski, difony(diady), sylaby, wyrazy? Jak stworzyć bazę jednostek? Jakie powinny być jej rozmiary? Jak określić optymalny system wyboru i łączenia ze sobą segmentów? Jak modyfikować cechy prozodyczne stworzonego łańcucha segmentów?
63
Difony – wady i zalety Difon – element zawierający w całości przejście między głoskami, poprzedzone częścią głoski poprzedzającej i zakończone częścią głoski następującej
64
Montowanie wypowiedzi z difonów
Difon –eS- Zamiana kodu ortograficznego na kod fonematyczny: Szczebrzeszyn _S StS tSe eb bZ ZI In n_
65
Przykłady syntezy konkatenacyjnej
MBROLA-PL MBROLA-D
66
System optymalnej selekcji segmentów
„Konwersja tekstu na mowę ”” „KONWÓJ” KONW „WERSJA” WERSJA „ATEST” ATE „TEKST” EKST „TUNEL” TUN „NAMOWA” NAMOW „TRAWĘ” WĘ
67
Czy może syntezator coś zaśpiewać ?
68
BALDI
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.