GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM Informatyka Stosowana Semestr letni2010/2011 GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM W6
Predykcja liniowa (LPC)
Predykcja liniowa Liniowe kodowanie predykcyjne (ang. Linear Predictive Coding – LPC) – technika analizy sygnału mowy polegająca na przedstawieniu sygnału mowy jako odpowiedzi filtru typu biegunowego (all-pole filter) na sygnał tonu krtaniowego. Filtr biegunowy (AR) odzwierciedla rezonansową charakterystykę traktu głosowego
Zakładany model generacji mowy s(n) u(n)
założenia Odpowiedź filtru biegunowego na pobudzenie jest kombinacją liniową kolejnych próbek z wyjścia filtru. Oznacza to, że sygnał mowy można przewidzieć na podstawie jego poprzednich próbek. Stąd nazwa liniowe kodowanie predykcyjne. Liczba próbek branych pod uwagę przy tej analizie jest zdeterminowana przez rząd filtru (rząd analizy LPC) –p.
Wyznaczanie współczynników filtra LPC polega na zminimalizowaniu błędu między sygnałem a jego predykcją.
W zapisie macierzowym: Najczęściej rozwiązuje się problem wyznaczenia współczynników metodą autokorelacyjną z zastosowaniem iteracyjnego odwracania macierzy (algorytmy Levinsona, Robinsona i Durbina)
Metoda Levinsona-Durbina Wyliczane: Współczynniki predykcji liniowej ai, i = 1, …, p Znane: Współczynniki autokorelacji r(i), i = 0, 1, …, p Zakładane: n, p
Przykład: Wyliczyć współczynniki LPC dla modelu drugiego rzędu, p=2
Metoda dwuetapowa i jednoetapowa
Predykcja liniowa - zastosowania
Analiza cepstralna mowy
Współczynniki cepstralne w dziedzinie częstotliwości o skali melowej Mel-Frequency Cepstral Coefficients MFCC
Prawo Webbera-Fechnera głosi, że Reakcja układu biologicznego jest proporcjonalna do logarytmu pobudzającego go bodźca. Oznacza to, że ludzkie ucho nie odpowiada liniowo na zwiększającą się częstotliwość.
Skalę melową uzyskuje się poprzez filtrację sygnału bankiem filtrów o charakterystyce trójkątnej. Zazwyczaj liczba pasm wynosi od 12 do 20
Rozpoznawanie mowy Nieliniowa normalizacja czasowa (DTW – Dynamic Time Warping) Podejście stochastyczne (HMM – Hidden Markov Model) Sztuczne sieci neuronowe (TDNN – Time Delay Neural Networks)
Definicje Każde zadanie określane ogólną nazwą rozpoznawania obiektów da się sformułować za pomocą czterech podstawowych pojęć: Ustalenie elementów zbioru obrazów, wzorców, które z pewnego punktu widzenia uznajemy za jednorodne. Na tym etapie decydujemy co będzie przedmiotem rozpoznawania (A – zbiór obrazów, alfabet). Dokonanie wyboru cech opisujących pojedynczą realizację obrazu. Zbiór tych cech oznaczamy przez X. A X
Definicje, cd. R Przyjęcie reguły decyzyjnej R, tzn. zasady, zgodnie z którą podejmowane będą decyzje, do jakiego obrazu należy zaliczyć wybraną z przestrzeni prób realizację. Ustalenie wielkości strat S spowodowanych błędami klasyfikacji S
Zadania rozpoznawania obiektów [R/(A, X, S)] Klasyczny problem PR – konstrukcja reguły decyzyjnej [X/(A, R, S)] Problem minimalizacji opisu, redukcja liczby cech [A/(X, R, S)] Taksonomia, grupowania, analiza skupień – należy podzielić przestrzeń obiektów na grupy [S/(A, X, R)] Należy wyznaczyć spodziewane straty klasyfikacji
Zadanie grupowania Celem metod grupowania jest łączenie obiektów w większe grupy na podstawie ich wzajemnego podobieństwa Kryterium podobieństwa obiektów oparte jest na ich wzajemnej odległości. ZADANIE: Znaleźć taki podział, żeby odległości między obiektami w jednej klasie były jak najmniejsze, a między klasami – jak największe.
Trudności w zdefiniowaniu grupy Topologia przestrzeni cech?
Problemy Jak odwzorować obiekty w przestrzeni? Wybór zmiennych Normalizacja zmiennych Jak mierzyć odległości między obiektami? Wprowadzenie metryki Odległości: obiekt-grupa oraz grupa-grupa Jaką metodę grupowania zastosować?
Główne metody grupowania Podziałowe: Leader K-means Hierarchiczne: Aglomeracyjne Dzielące
LEADER Przydziel pierwszy obiekt jako jądro pierwszego skupienia, Przejdź do następnego obiektu, Jeżeli obiekt ten jest bliższy niż to przydziel go do skupienia, w przeciwnym przypadku przejdź do następnego punktu, Utwórz nowe skupienie Powtarzaj procedurę aż do rozpatrzenia wszystkich obiektów
Najprostszy algorytm podziału metodą najkrótszego połączenia przy starcie z niezgrupowanych obiektów i kryterium odległości d < d0 Znajdź dwa najmniej odległe od siebie obiekty d<d0 ? koniec N T Znajdź obiekt najmniej odległy od któregokolwiek z obiektów skupienia Skupienie jest kompletne; dalsza analiza dla obiektów poza skupieniami d<d0 ? N T Dodaj obiekt do skupienia
Po znalezieniu skupień dla najmniejszej wartości d0 zwiększamy d0 i w podobny sposób prowadzimy łączenie już znalezionych skupień w większe. Algorytm kompletnych połączeń: dwa skupienia łączą się w jedno, jeżeli największa odległość między ich elementami jest mniejsza od zadanego kryterium. Algorytm średnich połączeń: dwa skupienia łączą się w jedno, jeżeli średnia odległość pomiędzy ich elementami jest mniejsza od zadanego kryterium. Algorytmy centroidów: liczy się odległość obiektu od środka dotychczasowego skupienia.
K-means Dokonaj wstępnego podziału zbioru danych na k skupień. Wylicz ich centroidy. Dla każdego obiektu znajdź najbliższy centroid i jeżeli nie jest to centroid skupienia, do którego jest on aktualnie przydzielony, przenieś obiekt do tego skupienia oraz popraw parametry obu skupień (centroidy i liczebności) Powtarzaj drugi krok dopóki w przeglądzie zajdzie zmiana w przydziale obiektów
Grupowanie hierarchiczne
Kwantyzacja wektorowa Wartości k są wybierane tak, aby minimalizowały wyrażenie: