Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

PRACA DYPLOMOWA Kraków 2006 Politechnika Krakowska im. Tadeusza Kościuszki Wydział Inżynierii Elektrycznej i Komputerowej MAGISTERSKA.

Podobne prezentacje


Prezentacja na temat: "PRACA DYPLOMOWA Kraków 2006 Politechnika Krakowska im. Tadeusza Kościuszki Wydział Inżynierii Elektrycznej i Komputerowej MAGISTERSKA."— Zapis prezentacji:

1 PRACA DYPLOMOWA Kraków 2006 Politechnika Krakowska im. Tadeusza Kościuszki Wydział Inżynierii Elektrycznej i Komputerowej MAGISTERSKA

2 Rozpoznawanie mówcy z wykorzystaniem GSDM Promotor: dr inż. Tomasz Gąciarz Piotr Mizera

3 Wyjaśnienie tematu Proces rozpoznawania mówcy zawiera w sobie procedury identyfikacji oraz weryfikacji, które są dokonywane na podstawie pobranych próbek głosu. Genetyczna rozrzedzona pamięć rozproszona GSDM (ang. Genetic Sparse Distributed Memory) pełni rolę klasyfikatora.

4 Identyfikacja Identyfikacja głosów ma na celu ustalenie tożsamości mówcy poprzez przypisanie jego wypowiedzi do mówcy z danego zbioru mówców Wypowiedź nieznanego mówcy M - krotna procedura porównania Zapamiętane wzorce mówcy m = 1 Zapamiętane wzorce mówcy m = 2 Zapamiętane wzorce mówcy m = M...

5 Weryfikacja Weryfikacja głosów to procedura potwierdzająca lub odrzucająca zgłoszoną tożsamość mówcy na podstawie jego wypowiedzi. Wypowiedź nieznanego mówcy z żądaniem sprawdzenia, że należy do głosu m * Jednokrotna procedura porównania ze wskazanym m-tym głosem Zapamiętane wzorce mówcy m = 1 Zapamiętane wzorce mówcy m = 2 Zapamiętane wzorce mówcy m = m * Zapamiętane wzorce mówcy m = M...

6 Cel i zakres Celem pracy jest zaproponowanie metody rozpoznawania mówcy oraz jej praktyczna realizacja w postaci oprogramowania przeznaczonego do rozpoznawania mówcy na podstawie nagranych wypowiedzi. Program ma obejmować poszczególne etapy procesu rozpoznawania mówcy z użyciem pamięci GSDM jako klasyfikatora.

7 Etapy procesu rozpoznawania mówcy wstępne przetwarzanie – zapisanie sygnału mowy w postaci cyfrowej oraz przygotowanie próbek głosu (m.in. usunięcie ciszy z początku i końca nagrania), ekstrakcja parametrów osobniczych – wydobycie cech charakteryzujących głos mówcy (budowa wektora cech), klasyfikacja – porównanie wartości ekstrahowanych parametrów z wartościami wzorcowymi znajdującymi się w pamięci.

8 Zawartość pracy Sygnał mowySygnał mowy Przygotowanie próbek głosuPrzygotowanie próbek głosu Ekstrakcja parametrówEkstrakcja parametrów Rozrzedzona pamięć rozproszonaRozrzedzona pamięć rozproszona Aplikacja Speaker Recogniotion – Genetic Sparse Distributed MemoryAplikacja Speaker Recogniotion – Genetic Sparse Distributed Memory

9 Sygnał mowy 1z2 Wytwarzanie mowy ArtykulacjaOdtwarzanieGeneracja mowa naturalnamowa rekonstruowanamowa syntezowana Mowa ludzka jest jednym z najbardziej efektywnych sposobów przekazywania myśli i odczuć człowieka. Metody wytwarzania mowy

10 Sygnał mowy 2z2 Układ wzmacniający FiltryPrzetwornik A/C System komputerowy Przetwornik C/A FiltryUkład wzmacniający Przetwarza zmiany ciśnienia akustycznego na sygnał elektryczny Zmienia ciągły sygnał elektryczny na ciąg zakodowanych wartości cyfrowych Przetwarza dźwięk z postaci cyfrowej na analogową Układ przetwarzania wstępnego Przechowuje dźwięk w postaci cyfrowej w plikach muzycznych (np. pliki WAVE) Przetwarza sygnał elektryczny w falę akustyczną Schemat blokowy systemu przetwarzającego sygnał mowy

11 Przygotowanie próbek głosu 1z2 Usunięcie ciszy z początku i końca nagrania: algorytm energii sygnału, algorytm częstości zmian sygnału. Preemfaza – zamiana sygnału rzeczywistego na sygnał różnicowy (filtr o skończonej odpowiedzi impulsowej). Funkcja przejścia filtru: y(n) = s(n) - as(n-1) Gdzie: a parametr preemfazy (wartości z zakresu: )

12 Przygotowanie próbek głosu 2z2 Ramki sygnału i funkcja okna - próbki sygnału mowy dzielone są na ramki o stałym rozmiarze, ponieważ zakłada się, że sygnał mowy jest stacjonarny w krótkim okresie czasu ok. 10 ms. Funkcja okna tłumi skrajnie położone próbki w wydzielonych ramkach. Funkcja okna Hamminga w(n) = 0.54 – 0.46cos(2n/N) Gdzie: k=1...N-1, N – rozmiar okna Hamminga

13 Ekstrakcja parametrów 1z4 Ekstrakcja parametrów ma na celu wydobycie z sygnału mowy informacji jednoznacznie charakteryzujących mówcę. Rodzaj wydobywanych parametrów i ich liczba mają decydujące znaczenie w procesie rozpoznawania. Parametry biorące udział w procesie rozpoznawania mówcy: - parametry liniowego kodowania predykcyjnego (metoda LPC) - parametry cepstralne (metody: LPCC, MFCC)

14 Ekstrakcja parametrów 2z4 LPC (Linear Predictive Coefficients)LPC (Linear Predictive Coefficients) Metoda autokorelacji: minimalizacja błędu średnio kwadratowego

15 Ekstrakcja parametrów 3z4 LPCC (Linear Predictive Cepstral Coefficients)LPCC (Linear Predictive Cepstral Coefficients) Obliczenie współczynników cepstralnych na podstawie parametrów LPC:

16 Ekstrakcja parametrów 4z4 MFCC (Mel frequency Cepstral Coefficients)MFCC (Mel frequency Cepstral Coefficients) Podział sygnału na ramki FFT Skala mel LogIFFT mowaramki moc spektrum mel spektrum log mel spektrum mel cepstrum

17 Rozrzedzona pamięć rozproszona 1z2 Operacja zapisu:Operacja zapisu:

18 Rozrzedzona pamięć rozproszona 2z2 Operacja odczytu:Operacja odczytu:

19 Aplikacja Speaker Recogniotion – Genetic Sparse Distributed Memory 1z5 Program Speaker Recogniotion – Genetic Sparse Distributed Memory (SR-GSDM) jest aplikacją umożliwiającą identyfikację mówcy lub jego weryfikację na podstawie pobranych próbek głosu.

20 Aplikacja Speaker Recogniotion – Genetic Sparse Distributed Memory 2z5 1. Przygotowanie plików WAVE (m.in. usunięcie ciszy) 2. Ekstrakcja parametrów – budowa wektora cech 3. Tworzenie zbiorów uczących 4. Uczenie pamięci GSDM

21 Aplikacja Speaker Recogniotion – Genetic Sparse Distributed Memory 3z5 identyfikacja mówcy weryfikacja mówcy weryfikacja mówcy

22 Aplikacja Speaker Recogniotion – Genetic Sparse Distributed Memory 4z5 LPC LPCC MFCC identyfikacja identyfikacja

23 Aplikacja Speaker Recogniotion – Genetic Sparse Distributed Memory 5z5 weryfikacjaweryfikacja

24 KONIEC Dziękuję za uwagę


Pobierz ppt "PRACA DYPLOMOWA Kraków 2006 Politechnika Krakowska im. Tadeusza Kościuszki Wydział Inżynierii Elektrycznej i Komputerowej MAGISTERSKA."

Podobne prezentacje


Reklamy Google