Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl Dwięk w multimediach Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl.

Slides:



Advertisements
Podobne prezentacje
Znaki informacyjne.
Advertisements

Wprowadzenie do informatyki Wykład 6
POWIAT MYŚLENICKI Tytuł Projektu: Poprawa płynności ruchu w centrum Myślenic poprzez przebudowę skrzyżowań dróg powiatowych K 1935 i K 1967na rondo.
Liczby pierwsze.
Domy Na Wodzie - metoda na wlasne M
Klasyfikacja źródeł informacji
1 Stan rozwoju Systemu Analiz Samorządowych czerwiec 2009 Dr Tomasz Potkański Z-ca Dyrektora Biura Związku Miast Polskich Warszawa,
(na podstawie badań ankietowych)
Wybrane zagadnienia z logopedii i zaburzeń rozwoju mowy
Liceum Ogólnokształcące im. Adama Mickiewicza w Górze
Systemy operacyjne Copyright, 2000 © Jerzy R. Nawrocki Wprowadzenie do informatyki.
Systemy operacyjne Copyright, 2000 © Jerzy R. Nawrocki Wprowadzenie do informatyki.
Klawiatura i urządzenia wskazujące
PREPARATYWNA CHROMATOGRAFIA CIECZOWA.
Systemy dynamiczne 2010/2011Systemy i sygnały - klasyfikacje Kazimierz Duzinkiewicz, dr hab. inż.Katedra Inżynierii Systemów Sterowania 1 Dlaczego taki.
Podstawowe pojęcia akustyki
Gimnazjum nr 4 im. Kardynała Stefana Wyszyńskiego w Tychach
w nauczaniu zintegrowanym
E-learning czy kontakt bezpośredni w szkoleniu nowych użytkowników bibliotek uczelni niepaństwowych? EFEKTYWNOŚĆ OBU FORM SZKOLENIA BIBLIOTECZNEGO W ŚWIETLE.
Budowa Komputera.
Klasyfikacja systemów
Wykonał: Tomasz Nocek kl. III B
Multimedia Multimedia, ogólna nazwa technik komputerowych umożliwiających łączenie rozmaitych sposobów przekazywania informacji - dźwięku, obrazu, animacji,
Wykonawcy:Magdalena Bęczkowska Łukasz Maliszewski Piotr Kwiatek Piotr Litwiniuk Paweł Głębocki.
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
Percepcja słuchowa.
Budowa komputera.
Technologia informacyjna
Co to jest TIK?.
Wyrażenia algebraiczne
Internet w procesie komunikacji przedsiębiorstwa z rynkiem
KOMUNIKACJA MULTIMEDIALNA ĆWICZENIA
Autor: Justyna Radomska
Budowa komputera.
KOLEKTOR ZASOBNIK 2 ZASOBNIK 1 POMPA P2 POMPA P1 30°C Zasada działanie instalacji solarnej.
ŻYWE JĘZYKI PROGRAMOWANIA LIVING IT UP WITH A LIVE PROGRAMMING LANGUAGE Sean McDirmid Ecole Polytechnique Fédérale de Lausanne (EPFL)
EGZAMIN GIMNAZJALNY W SUWAŁKACH 2009 Liczba uczniów przystępująca do egzaminu gimnazjalnego w 2009r. Lp.GimnazjumLiczba uczniów 1Gimnazjum Nr 1 w Zespole.
Jak przygotować dobrą, interesującą prezentację multimedialną?
1. Pomyśl sobie liczbę dwucyfrową (Na przykład: 62)
POŚREDNIK Jak reprezentowana jest informacja w komputerze? liczby – komputer został wymyślony jako zaawansowane urządzenie służące do wykonywania.
Zasady organizacji wydarzeń promocyjnych
Analiza matury 2013 Opracowała Bernardeta Wójtowicz.
-wyszukiwanie informacji.
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.
Głoska GŁOSKA –najmniejszy element dźwiękowej formy wypowiedzi charakteryzujący się stałym zespołem cech: artykulacyjnych, tzn. związanych z położeniem/
Trening metodą Warnkego
EGZAMINU GIMNAZJALNEGO 2013
EcoCondens Kompakt BBK 7-22 E.
EcoCondens BBS 2,9-28 E.
Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.
User experience studio Użyteczna biblioteka Teraźniejszość i przyszłość informacji naukowej.
WYNIKI EGZAMINU MATURALNEGO W ZESPOLE SZKÓŁ TECHNICZNYCH
Testogranie TESTOGRANIE Bogdana Berezy.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
KARTY DŹWIĘKOWE.
Dr hab. Renata Babińska- Górecka
1 Używanie alkoholu i narkotyków przez młodzież szkolną w województwie opolskim w 2007 r. Na podstawie badań przeprowadzonych przez PBS DGA (w pełni porównywalnych.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Współrzędnościowe maszyny pomiarowe
Elementy geometryczne i relacje
Strategia pomiaru.
LO ŁobżenicaWojewództwoPowiat pilski 2011r.75,81%75,29%65,1% 2012r.92,98%80,19%72,26% 2013r.89,29%80,49%74,37% 2014r.76,47%69,89%63,58% ZDAWALNOŚĆ.
Multimedia To media, które wykorzystują różne formy informacji oraz różne formy ich przekazu (np. tekst, dźwięk, grafikę, animację, wideo) w celu dostarczania.
Komunikacja.
Metody komunikacji.
Komunikacja.
Technologie informacyjno-komunikacyjne – wszelkie działania związane z  produkcją i wykorzystaniem urządzeń telekomunikacyjnych i informatycznych oraz.
Graficzny Interfejs Użytkownika
Maciej Leszczyński Kl. 2c
Percepcja słuchowa.
Zapis prezentacji:

Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl Dwięk w multimediach Ryszard Gubrynowicz Ryszard.Gubrynowicz@pjwstk.edu.pl

Zaliczenie przedmiotu Egzamin testowy na zakończenie. Obecność na wykładach będzie miała wpływ na końcową ocenę Konsultacje Środa – godz 17.00 – 18.00....... (po uprzednim umówieniu się) Pokój 302

Literatura W języku polskim b. uboga Podstawy akustyki: Rosch W. L. (1997) Biblia o multimediach: multimedia od A do Z, Intersoftland, Warszawa 1997 Podstawy akustyki: Korbecki M., Komputerowe Przetwarzanie Dźwięku, Mikom 1999, rozdz. 1-5 Russel D. Acoustics and animation, http://www.kettering.edu./~drussell/Demos.html http://faculty.washington.edu/dillon/PhonResources/PhonResources.html#Speech

Literatura c.d. Analiza sygnału mowy: Dukiewicz L., Fonetyka [w] Fonetyka i Fonologia (red. H. Wróbel), Gramatyka współczesnego języka polskiego, wyd. Instytutu Języka Polskiego PAN, Kraków, 1995 (rozdz. 4,5) Tadeusiewicz R., Sygnał Mowy, WKiŁ, Warszawa 1988 Borden G.J., Harris K.S., Speech Science Primer, 5th ed., Williams&Wilkins, Baltimore, 2007

Literatura c.d. Cechy fonetyczno-akustyczne dźwięków mowy Dukiewicz L., Fonetyka.... Wierzchowska B., Fonetyka i fonologia języka polskiego, Ossolineum, Warszawa,1980 Huckvale M., Acoustics of Speech&Hearing, http://www.phon.ucl.ac.uk/courses/spsci/b214/week.htm

Kolejne wykłady będzie można pobierać z sieci pod adresem: http://www.pjwstk.edu.pl/~rgubryn/PJWSTK1.zip /PJWSTK2.zip …….. Uwaga na duże litery !

Znaczenie terminu multimedia Multimedia jest pojęciem bardzo szerokim Na ogół niezbyt dokładnie zdefiniowane i zależne od punktu widzenia. Multi = wiele Media = l. mnoga medium = średni, środkowy, nośnik, środowisko, łącznik (mass-medium = środek masowego przekazu) Wiele środków równoczesnego przekazu

Elementy przekazu multimedialnego Termin multimedia opisuje szereg różnych cyfrowych technologii umożliwiających połączenie mediów wizualnych i dźwiękowych, w wyniku czego uzyskuje się złożone środki wyrazu. Środki wyrazu (proste): wideo (obraz ruchomy), dźwięk, animacja, grafika, tekst.

Cyfrowe Multimedia Czym jest technologia cyfrowych multimediów? ”Jest to dziedzina, obejmująca integrację informacji tekstowej, graficznej, dźwiękowej, obrazu (stałego i ruchomego) animacji, i każdego innego medium, w którym dowolny typ informacji może być prezentowany, zapamiętywany i cyfrowo przetwarzany.” F. Fluckiger Komputer jest jedynym urządzeniem umożliwiającym tzw. przekaz multimedialny.

Podstawowe cechy systemów multimedialnych komputerowo sterowane (przez jeden lub wiele komputerów) zintegrowane (wszystkie środki wyrazu znajdują się w postaci cyfrowej na tej samej platformie technicznej) informacja w postaci cyfrowej zapewniona jest interaktywność Nb. odtwarzacz CD nie jest urządzeniem multimedialnym

Równoległość przekazu w systemach multimedialnych Cecha ta występuje w dwóch formach: kilka mediów równolegle oddziałuje na odbiorcę na odbiorcę oddziałują dwa (lub więcej) środki wyrazu tego samego typu, np. dwie sekwencje filmowe, dwa teksty itp. w jednej scenie.

Interaktywność w systemach multimedialnych Ta cecha wyróżnia przekaz multimedialny od innych form przekazu medialnego (film, TV, wideo). Charakterystyczną cechą multimediów jest ich interaktywność – użycie myszki, klawiszy (tekst), ekranu dotykowego, głosu, itp. przez użytkownika pozwala wpływać na postać prezentowanej mu informacji.

Formy interaktywności Odbiorca przekazu multimedialnego może: określić czas trwania i częstotliwość powtarzania określonego elementu prezentacji określić własną drogę przeglądania prezentacji (nawigacja otwarta) wprowadzić dane mające wpływ na dalszy przebieg prezentacji (pola wyboru, pola tekstowe) grupować wedle swego uznania różne elementy prezentacji (drag and drop) zmieniać elementy prezentacji (zmieniać kształt, ścieżkę dźwiękową, zamalowywać, itp.) wykonywać operacje na obiektach (obracać, przesuwać) poruszać się po wirtualnych pomieszczeniach Na podstawie akcji odbiorcy system określa dalszy przebieg prezentacji

Pragmatyczna definicja multimediów Przekaz jest multimedialny, gdy spełnia następujące warunki: jednocześnie wykorzystane są różne środki wyrazu wszystkie środki wyrazu znajdują się w postaci cyfrowej na tej samej platformie wszystkie środki wyrazu są połączone w jedną prezentację kilka różnych mediów równocześnie oddziałuje na odbiorcę użytkownik może aktywnie wpływać na przebieg oraz treść prezentacji (interaktywność)

Integracja Multimedialny system winien dawać możliwość generowania, gromadzenia, przesyłania i prezentacji informacji w sposób stanowiący jedną całość z punktu widzenia sterowania i komunikacji. Na poziomie komputera (integracja komputerowa) Na poziomie sieci (integracja sieciowa)

Integracja Integracja prezentacji Integracja gromadzenia CD-ROM Okno video Pamięć dyskowa text Okno tekstowe Integracja rejestracji Integracja sieciowa Kamera video Pojedyncza sieć Wbudowany mikrofon

Przykłady integracji sieciowej Video telekonferencje. Zdalne nauczanie, e-gospodarka (e-learning, e-commerce). Telemedycyna. Środowiska współpracy, zespoły robocze. Zarządzanie wiedzą, Przeszukiwanie (b.dużych) baz danych video i grafiki pod kątem wybranych obiektów wizualnych Rozszerzona rzeczywistość (augmented reality): na rzeczywisty obraz nakładane są obiekty w postaci komputerowej grafiki i wideo z uzupełniającą informacją o danej scenie Czym jest Rzeczywistość Rozszerzona (Augmented Reality)  Wyraźne rozdzielanie tego, co prawdziwe, od tego, co wygenerowane przez komputer, niekoniecznie jest strategią oczywistą i optymalną. Po co mamy zerkać raz na mapę, raz na otaczający nas krajobraz, by ustalić, gdzie jesteśmy? Czy rzeczywiście czytanie w muzeum przewodnika jest najwygodniejszą metodą sprawdzenia, co przedstawia dziwaczna rzeźba? A to irytujące uczucie, gdy usiłujemy sobie przypomnieć, skąd znamy mijaną właśnie na ulic osobę? Cóż byśmy wtedy dali za szybkie zerknięcie do jakiejś obrazkowej bazy danych na temat wszystkich poznanych kiedykolwiek osób! Rozwiązaniem tych niedogodności jest dodanie do tego, co widzimy własnymi oczami, informacji płynących z noszonego stale przy sobie komputera osobistego. Nie trzeba przy tym wcale posuwać się do skrajności jak i całkowicie rezygnować z korzystania z naturalnych zmysłów. Wystarczy je jedynie wzbogacić, dodając np. niewielki projektor, który będzie wyświetlał na zwykłych okularach opisy mijanych budynków czy ludzi w postaci np. komiksowych dymków. Ba, można nawet dodać kilka postaci, których zwykle nie mijamy na ulicy. I to właśnie robi Rzeczywistość Rozszerzona. W systemach rozszerzonej rzeczywistości (AR) informacje generowane przez komputer są dodawane do "zwykłych" bodźców odbieranych przez zmysły obserwatora. Podczas gdy wirtualna rzeczywistość zmierza do zastąpienia realnego Świata, rzeczywistość rozszerzona go uzupełnia. Obecne osiągnięcia techniczne mogą już wkrótce doprowadzić do stworzenia systemów rozszerzonej rzeczywistości przeznaczonych dla chirurgów, serwisantów urządzeń, żołnierzy, turystów i graczy komputerowych. Kiedyś takie systemy prawdopodobnie staną się powszechne. Augmented Reality (AR) w przeciwieństwie do Virtual Reality (VR) nie polega na tym, że komputer tworzy rzeczywistość od podstaw, lecz jedynie dodaje do niej pewne elementy, widoczne wyłącznie dla użytkownika. Najlepszą metaforą byłyby tu filmy DVD czy DivX, na które nakłada się warstwę napisów. Technologia podobna do AR stosowana jest od lat w hełmach pilotów wojskowych (tzw. HUD - Head Up Display), lecz tam dane wyświetlane przed oczami żołnierza powtarzają jedynie wskazania urządzeń pokładowych samolotu. Tymczasem w rzeczywistości rozszerzonej chodzi o realizowane przez komputer ubraniowy rozpoznanie obiektów, ich identyfikację oraz wzbogacenie o opisy, zaczerpnięte z wewnętrznej bazy danych

Ośrodek - percepcja

Człowiek jako odbiorca informacji multisensorycznej Co najmniej jeden z narządów zmysłów jest zaangażowany w komunikacji interaktywnej np. przez dźwięki, tekst, hypertekst, animacja, video, gesty, obrazy, dotyk

Narządy zmysłów w codziennym oddziaływaniu otoczenia na człowieka Wzrok Słuch Dotyk Smak Powonienie Każdy z narządów z osobna jest ważny, lecz dopiero razem umożliwiają pełną interakcję człowieka z otoczeniem. Komputery nie umożliwiają tak wszechstronnej interaktywności, ograniczając się do oddziaływania na pierwsze z 3 wyżej wymienionych narządów zmysłów.

Cechy bodźców rozróżniane przez wzrok (w zakresie widzialnym) intensywność, kolor, obrazy 2D i 3D kształty (znaki) zmiany w czasie (szybkość rejestracji do ok. 60-100 na sek) ........ czułość wzroku – w bezksiężycową, bezchmurną noc podobno można spostrzec światło zapałki z odległości 1,6 km?.

Czułość oka

Cechy bodźców rozróżniane przez słuch Zakres częstotliwości – 20 Hz-16000 kHz (l =17,2 m- 2,15 cm) Rozróżnianie jednocześnie występujących składowych częstotliwościowych Reaguje na zmianę częstotliwości Czuły jest na przestrzenne własności dźwięku (położenie źródła, +echo, pogłos itp.) Barwa (rozróżnianie instrumentów muzycznych) Dźwięki, mowa, muzyka, hałas

Cechy bodźców rozróżniane przez dotyk - skóra, język, śluzówka itp. Nacisk Ruchy skóry Różnice temperatury Drgania Ból Szok elektryczny

Smak (język) i powonienie Słodki Kwaśny Gorzki Słony Nieokreślony Człowiek jest w stanie rozróżnić ok. 10 000 różnych zapachów

Media w transmisji sygnałów Zadaniem technologii mediów jest próba zastąpienia rzeczywistych bodźców sygnałami medialnymi wywołującymi podobne wrażenia u odbiorcy, jak zarejestrowane wcześniej bodźce.

Klasyfikacja mediów ciągłe (w czasie) Dźwięk Ruchome obrazy Mowa Czas/przestrzeń ciągłe (w czasie) Dźwięk Ruchome obrazy Mowa Muzyka Animacje Dyskretne (w przestrzeni) Pojedyncze obrazy Tekst Grafika Źródło Zarejestrowane z otoczenia Zsyntezowane przez komputery

Sprzęt i oprogramowanie w multimediach Sprzęt komputerowy i odpowiednie oprogramowanie stanowią warunek konieczny istnienia multimediów; są podstawowym narzędziem do emisji przekazu multimedialnego. Są też narzędziem do realizacji konwergencji mediów, czyli do łączenia różnych źródeł przekazu w jednym miejscu i wzajemnego ich przenikania oraz uzupełniania (więcej na ten temat: np. Biblia o multimediach, Rosh 1997)

Multimodalny – multimedialny Systemy multimodalne (na ogół dialogowe) • wykorzystują więcej niż jeden zmysł (lub sposób ) w interakcji z użytkownikiem • np. wizualny i słuchowy zmysł: procesor tekstów może jednocześnie wyświetlać wyrazy na monitorze i generować ich postać dźwiękową  Systemy multimedialne • wykorzystują różne media do przekazywania informacji • np. komputerowy system wspomagający uczenie: może stosować video, animacje, tekst i nieruchome obrazy: różne media, oddziaływujące wszystkie na jeden receptor wzrokowy. może również wykorzystać dźwięki, zarówno mowę jak i dźwięki nieartykułowane (chrząkanie, gwizd itp., czy otoczenia), wówczas mamy 2 dodatkowe media oddziaływujące receptor słuchowy na dwa różne sposoby.  Multimedialny – wykorzystuje różne media oddziaływujące na jeden zmysł, multimodalny – różne media (może być też i jedno) oddziaływujące na wiele zmysłów jednocześnie. W praktyce bardziej rozwinięte systemy są multimodalne/multimedialne. Przykład systemu dialogowego: na wejściu – mowa, gesty, ekspresja twarzy; na wyjściu – kombinacja obrazów, animacji i mowy syntetycznej

Dźwięk w multimediach Muzyka Dźwięki natury i otoczenia Paradźwięki generowane przez człowieka (chrząkanie, klaskanie, kroki itp.) Mowa i komputery: Kodowanie sygnału mowy W komunikacji komputerów z użytkownikami Rozpoznawanie i rozumienie mowy przez komputer Synteza mowy

Interaktywne edytory sygnałów dźwiękowych Jest to oprogramowanie umożliwiające wizualizację, odsłuchiwanie i przetwarzanie sygnałów akustycznych rejestrowanych przez mikrofon lub inne przetworniki. Istotną cechą edytorów audio tego typu jest to, że za ich pomocą możemy modyfikować strukturę zapisanego w formie cyfrowej dźwięku, wprowadzać dodatkowe opisy poszczególnych jego segmentów. Audacity (Open Source) adobeRAudition™ WaveSurfer (Open Source) – Waves+ (Entropic) Praat (Open Source)

Audacity

Audition

WaveSurfer

Praat

Adaptacyjne odszumianie Odszumianie – usuwanie z nagrań niepożądanych dźwięków Zależnie od rodzaju i przeznaczenia nagrania zakłóceniami mogą być szumy otoczenia, syki, gwizdy, mowa, muzyka, trzaski, stuki oraz szumy i zakłócenia typu elektrycznego (np. „przydźwięk”), Adaptacyjne odszumianie

Dlaczego mowa w systemach multimedialnych ? Naturalność komunikacji: Mowa jest najbardziej skutecznym (i na ogół najszybszym), łatwym i powszechnym sposobem porozumiewania się Skuteczność: W niektórych sytuacjach jest jedynym, możliwym środkiem porozumienia się Ekspresja: Pewne sytuacje, stany emocjonalne, nie są do oddania bez użycia mowy (języka naturalnego) Niekiedy jedyny środek komunikacji bezpośredniej: Telefon, radiotelefon itp. z osobami prowadzącymi pojazdy, maszyny itp.

Układ akustyczny odbiornik - ośrodek - źródło Trzy zasadnicze działy tematyczne będące przedmiotem wykładów DSM: akustyka mowy (z podstawami akustyki), propagacja dźwięku w otoczeniu (ośrodku), budowa narządu słuchu i percepcja dźwięku.

Podstawą wszelkiej komunikacji człowiek-człowiek jest język Język – system znaków i określonych reguł fonologicznych, syntaktycznych i semantycznych rządzących kombinacją tych znaków Mowa – język mówiony Pismo – język pisany, obrazki Miganie – język migowy (polski, norweski, niemiecki itp.)

Formalna definicja mowy Mowa jest jednym z wielu sposobów przekazywania informacji. Specyfiką mowy jest to, że ma postać dźwiękową. Jest zazwyczaj kodowana w postaci ciągu dźwięków o określonych charakterystykach. Kod jest specyficzny dla danego języka, co powoduje, że każdy język ma określony dla siebie zbiór dźwięków mowy.

W komunikacji człowiek - otoczenie Mówienie jest szybsze, niż pisanie (wprawna osoba ok. 100 zn/s, słaba - 30 zn/s) Słuchanie jest łatwiejsze, niż czytanie Pokazanie jest efektywniejsze, niż opisanie

Schemat komunikacji werbalnej

Tor audio-wizualny mowy

Informacje niesione przez sygnał mowy Informacje lingwistyczne Informacje artykulacyjne (fonetyczne) Informacje emocjonalne Informacje osobnicze Informacje o zaburzeniach organicznych mowy Informacje o zaburzeniach neurogennych mowy Informacje społeczne, kulturowe, nawykowe, itp. ♠ Informacje o otoczeniu – hałasy, pogłos itp

Wszystko jest jasne (znaczenie informacji lingwistycznych) Zogndie z nanjwoymszi bnaiadmai perzporawdzomyni na btyryijskch uneruwstytetiach nie ma znczeania, w jaikej kloejnśoci nazpsiemy lietry wenątwrz wryazu, blye tlkyo pirwesza i otstaina lreita błyy na soiwch mijsecach. Rtszea mżoe być dolnwoie poszamienina, a mmio to bedęzimy w stniae pczyrzteać tkest bez wikszęego prleobmu. Diezje się tak dlteago, że nie cztaymy kżdeaj z lteir odelndziie, ale wrayz jkao cłoaść.  Eric Campbell

Mowa w systemie dialogowym Użytkownicy Rozpoznawanie Interpretacja Interpretacja mowy semantyczna wypowiedzi Synteza Generacja Organizacja mowy odpowiedzi dialogu

Architektura systemu dialogowego Rozpoznawanie mowy Interpretacja mowy Organizator dialogu Generacja tekstu Synteza mowy

Parametry sygnału mowy oscylogram widmo + formanty poziom wysokość głosu iloczas

Wielowarstwowy opis sygnału mowy

Potencjalne zastosowania mowy Urządzenia audio/video Komórki Palmtopy Zastosowania w środkach lokomocji Kioski informacyjne zabawki

Pierwsze handlowe urządzenie czytające dla niewidomych (1976) – ok Print-to-speech machine

Synteza mowy

Podstawowe elementy systemu TTS

Moduł analizy tekstu Moduł ten powinien dostarczyć całą informację dotyczącą tekstu, nie będącą w swej naturze fonetyczną, mającą jednak wpływ na działanie modułu fonetycznego W najprostszych systemach moduł ten dokonuje konwersji znaków nieortograficznych np. liczb. Bardziej rozwinięte systemy dokonują analizy znaków takich jak spacje, znaków przestankowych itp., w celu dokonania bardziej szczegółowej analizy syntaktycznej i semantycznej tekstu podzielonego na zdania. Analiza ta jest prowadzona pod kątem określenia tych atrybutów, które mogą wspomóc analizę fonetyczną i generację cech prozodycznych

Analiza tekstu Tekst może być analizowany jako jedna z form bardzo efektywnego kodowania mowy z dużą jednak możliwością jego interpretowania pod względem stylu, intonacji, tempa, rytmu itp. Relacja między tekstem pisanym i mówionym jest jednak często niezwykle złożona, szczególnie, gdy mamy do czynienia z tekstami z dodatkowymi opisami, np. przesyłanymi via Internet. Moduł analizy tekstu określa typ i strukturę przetwarzanego dokumentu, dokonuje konwersji nieortograficznych znaków, rozbioru gramatycznego, analizy syntaktycznej, leksykalnej.

Przykład normalizacji tekstu „W doświadczeniach finansowanych przez MEN zastosowano 7% roztwór HCl.” W doświadczeniach finansowanych przez Ministerstwo Edukacji i Nauki zastosowano siedmioprocentowy roztwór kwasu solnego Np. moduł analizy lingwistycznej musi dokonać interpretacji znaku przestankowego „kropki”, czy jest końcem zdania, czy elementem skrótu.

Normalizacja tekstu i analiza lingwistyczna Normalizacja tekstu polega na ujednoliceniu konwersji wszystkich symboli, liczb i znaków nieortograficznych w transkrypcji ortograficznej, w postaci umożliwiającej następnie ich konwersję na ciąg znaków transkrypcji fonetycznej Analiza lingwistyczna tekstu obejmuje wybrane elementy syntaktyczne i semantyczne takie jak słowo, fraza, zdanie, wypowiedź by ocenić ich wpływ na samą wymowę i cechy prozodyczne

Moduł analizy tekstu i analizy fonetycznej Morfologia – budowa i odmiana wyrazów

Analiza fonetyczna Działanie modułu fonetycznego ma na celu dokonanie konwersji wyrazów przedstawionych w postaci kodu ortograficznego na kod fonetyczny z dodatkowymi informacjami (np. dotyczącymi akcentu), określającymi ich wymowę. Analiza morfologiczna umożliwia określenie wymowy deklinacyjnych i koniugacyjnych form wyrazów znajdujących się w słowniku, a przede wszystkim zmianę znaczenia spowodowaną zmianą dźwięku mowy lub intonacją.

Moduł syntezy mowy Moduł ten generuje akustyczny sygnał mowy, na podstawie sekwencji określonych fonemów uzyskanych na podstawie przetwarzania tekstu, wzorców iloczasowych, konturu melodycznego i obwiedni amplitudy Synteza konkatenacyjna

Schemat systemu syntezy konkatenacyjnej

Problemy w syntezie konkatenacyjnej Wybór jednostek – głoski, difony(diady), sylaby, wyrazy? Jak stworzyć bazę jednostek? Jakie powinny być jej rozmiary? Jak określić optymalny system wyboru i łączenia ze sobą segmentów? Jak modyfikować cechy prozodyczne stworzonego łańcucha segmentów?

Difony – wady i zalety Difon – element zawierający w całości przejście między głoskami, poprzedzone częścią głoski poprzedzającej i zakończone częścią głoski następującej

Montowanie wypowiedzi z difonów Difon –eS- Zamiana kodu ortograficznego na kod fonematyczny: Szczebrzeszyn _S StS tSe eb bZ ZI In n_

Przykłady syntezy konkatenacyjnej MBROLA-PL MBROLA-D

System optymalnej selekcji segmentów „Konwersja tekstu na mowę........ ”” „KONWÓJ” KONW „WERSJA” WERSJA „ATEST” ATE „TEKST” EKST „TUNEL” TUN „NAMOWA” NAMOW „TRAWĘ” WĘ

Czy może syntezator coś zaśpiewać ?

BALDI http://cslu.cse.ogi.edu/toolkit/download/index.html