PRACA DYPLOMOWA MAGISTERSKA Kraków 2006

Slides:



Advertisements
Podobne prezentacje
Przetwarzanie sygnałów Filtry
Advertisements

Wykład 5: Dyskretna Transformata Fouriera, FFT i Algorytm Goertzela
Wykład 6: Dyskretna Transformata Fouriera, FFT i Algorytm Goertzela
Zaawansowane metody analizy sygnałów
PODSTAWY TECHNIKI CYFROWEJ
przetwarzaniu informacji
Skalowalny algorytm estymacji ruchu dla systemów rozproszonych
DIELEKTRYKI TADEUSZ HILCZER.
DIELEKTRYKI TADEUSZ HILCZER
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Zaawansowane metody analizy sygnałów
Teoria Sygnałów Literatura podstawowa:
Systemy dynamiczne 2010/2011Systemy i sygnały - klasyfikacje Kazimierz Duzinkiewicz, dr hab. inż.Katedra Inżynierii Systemów Sterowania 1 Dlaczego taki.
PODSTAWY INFORMATYKI Wykładowca: mgr Tadeusz Ziębakowski
Komputer, procesor, rozkaz.
Paweł Kramarski Seminarium Dyplomowe Magisterskie 2
Mirosław ŚWIERCZ Politechnika Białostocka, Wydział Elektryczny
Sieci Hopfielda.
Wstęp do interpretacji algorytmów
Budowa Komputera.
TECHNOLOGIE INFORMACYJNE
Zastosowanie technologii CUDA w sztucznej inteligencji
Temat 3: Co to znaczy, że komputer ma pamięć? Czy można ją zmierzyć?
Komputer a system komputerowy
Systemy wspomagania decyzji
Sztuczne Sieci Neuronowe
20 września 2003r. Centrum Kształcenia Ustawicznego im. St. Staszica w Koszalinie Wstęp do algorytmiki Autor: Marek Magiera.
Cele i rodzaje modulacji
Automatyka Wykład 9 Transmitancja operatorowa i stabilność układu regulacji automatycznej.
Wykład 10 Regulacja dyskretna (cyfrowa i impulsowa)
ALGORYTMY OPTYMALIZACJI
Systemy Wizyjne i Głosowe
Autor: Justyna Radomska
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Zakładamy a priori istnienie rozwiązania α układu równań.
Modelowanie matematyczne jako podstawa obliczeń naukowo-technicznych:
Modelowanie i Identyfikacja 2011/2012 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Warstwowe.
Modelowanie i podstawy identyfikacji 2012/2013Modele fenomenologiczne - dyskretyzacja Kazimierz Duzinkiewicz, dr hab. inż.Katedra Inżynierii Systemów Sterowania1.
Wykład 9 Regulacja dyskretna (cyfrowa i impulsowa)
Sygnały cyfrowe i bramki logiczne
Systemy wbudowane Wykład nr 3: Komputerowe systemy pomiarowo-sterujące
Algorytmika.
KARTY DŹWIĘKOWE.
Sieci neuronowe, falki jako przykłady metod analizy sygnałów
System plików.
ZAAWANSOWANA ANALIZA SYGNAŁÓW
Metody automatycznego rozpoznawania głosów ptaków
Mgr inż. Adam Dziekoński Katedra Inżynierii Mikrofalowej i Antenowej. WETI PG Urodzony: r. Wykształcenie: studia na kierunku Elektronika,
Rozpoznawanie głosów ptaków
TEMAT : Kompresja i Archiwizacja danych Informatyka Zakres rozszerzony
 Mowa ciała, język ciała, komunikacja niewerbalna – zespół niewerbalnych komunikatów nadawany ch i odbieranych przez ludzi na wszystkich niewerbalnych.
Wstęp do interpretacji algorytmów
Metody sztucznej inteligencji – technologie rozmyte i neuronoweReguła propagacji wstecznej  Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów.
BUDOWA WEWNĘTRZNA KOMPUTERA
Podstawy akustyki i obróbka dźwięku
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania Modelowanie i podstawy identyfikacji 2015/2016 Modele neuronowe – podstawy,
Nikoletta Gabinek. Ewolucja mózgu odróżniła człowieka od zwierząt, gdy doprowadziła do powstania rewolucyjnego sposobu komunikacji - mowy. Umożliwiła.
Zapis cyfrowy. Technika cyfrowa W technice cyfrowej sygnał przetwarzany jest z naturalnej postaci do reprezentacji numerycznej, czyli ciągu dyskretnych.
Algorytmy. Co to jest algorytm? Przepis prowadzący do rozwiązania zadania.
1 Proces analizy i rozpoznawania. 2 Jak przygotować dwie klasy obiektów?
WYKORZYSTANIE ANALIZY HFCC W ROZPOZNAWANIU GŁOSÓW PTAKÓW
Sadsadafghfhfghg POLITECHNIKA RZESZOWSKA WYDZIAŁ ELEKTROTECHNIKI I INFORMATYKI POLITECHNIKA RZESZOWSKA im. Ignacego Łukasiewicza WYDZIAŁ ELEKTROTECHNIKI.
Listy.
Instytut Mechatroniki i Systemów Informatycznych Politechnika Łódzka ul. Stefanowskiego 18/ Łódź.
Systemy neuronowo – rozmyte
Transformacja Z -podstawy
Materiały do wykładu PTS 2010
Tytuł pracy dyplomowej
Podstawy Automatyki Człowiek- najlepsza inwestycja
Zapis prezentacji:

PRACA DYPLOMOWA MAGISTERSKA Kraków 2006 Politechnika Krakowska im. Tadeusza Kościuszki Wydział Inżynierii Elektrycznej i Komputerowej PRACA DYPLOMOWA MAGISTERSKA Kraków 2006

Rozpoznawanie mówcy z wykorzystaniem GSDM Piotr Mizera Rozpoznawanie mówcy z wykorzystaniem GSDM Promotor: dr inż. Tomasz Gąciarz

Wyjaśnienie tematu Proces rozpoznawania mówcy zawiera w sobie procedury identyfikacji oraz weryfikacji, które są dokonywane na podstawie pobranych próbek głosu. Genetyczna rozrzedzona pamięć rozproszona GSDM (ang. Genetic Sparse Distributed Memory) pełni rolę klasyfikatora.

M - krotna procedura porównania Identyfikacja Identyfikacja głosów ma na celu ustalenie tożsamości mówcy poprzez przypisanie jego wypowiedzi do mówcy z danego zbioru mówców M - krotna procedura porównania Zapamiętane wzorce mówcy m = 1 Zapamiętane wzorce mówcy m = 2 Wypowiedź nieznanego mówcy ... Zapamiętane wzorce mówcy m = M

Weryfikacja Weryfikacja głosów to procedura potwierdzająca lub odrzucająca zgłoszoną tożsamość mówcy na podstawie jego wypowiedzi. Zapamiętane wzorce mówcy m = 1 Zapamiętane wzorce mówcy m = 2 Wypowiedź nieznanego mówcy z żądaniem sprawdzenia, że należy do głosu m* Jednokrotna procedura porównania ze wskazanym m-tym głosem Zapamiętane wzorce mówcy m = m* ... Zapamiętane wzorce mówcy m = M

Cel i zakres Celem pracy jest zaproponowanie metody rozpoznawania mówcy oraz jej praktyczna realizacja w postaci oprogramowania przeznaczonego do rozpoznawania mówcy na podstawie nagranych wypowiedzi. Program ma obejmować poszczególne etapy procesu rozpoznawania mówcy z użyciem pamięci GSDM jako klasyfikatora.

Etapy procesu rozpoznawania mówcy wstępne przetwarzanie – zapisanie sygnału mowy w postaci cyfrowej oraz przygotowanie próbek głosu (m.in. usunięcie ciszy z początku i końca nagrania), ekstrakcja parametrów osobniczych – wydobycie cech charakteryzujących głos mówcy (budowa wektora cech), klasyfikacja – porównanie wartości ekstrahowanych parametrów z wartościami wzorcowymi znajdującymi się w pamięci.

Zawartość pracy Sygnał mowy Przygotowanie próbek głosu Ekstrakcja parametrów Rozrzedzona pamięć rozproszona Aplikacja “Speaker Recogniotion – Genetic Sparse Distributed Memory”

Sygnał mowy 1z2 Mowa ludzka jest jednym z najbardziej efektywnych sposobów przekazywania myśli i odczuć człowieka. Metody wytwarzania mowy Wytwarzanie mowy Artykulacja Odtwarzanie Generacja mowa naturalna mowa rekonstruowana mowa syntezowana

Schemat blokowy systemu przetwarzającego sygnał mowy Sygnał mowy 2z2 Schemat blokowy systemu przetwarzającego sygnał mowy Zmienia ciągły sygnał elektryczny na ciąg zakodowanych wartości cyfrowych Układ przetwarzania wstępnego Przetwarza zmiany ciśnienia akustycznego na sygnał elektryczny Układ wzmacniający Filtry Przetwornik A/C System komputerowy Układ wzmacniający Filtry Przetwornik C/A Przechowuje dźwięk w postaci cyfrowej w plikach muzycznych (np. pliki WAVE) Przetwarza sygnał elektryczny w falę akustyczną Przetwarza dźwięk z postaci cyfrowej na analogową

Przygotowanie próbek głosu 1z2 Usunięcie ciszy z początku i końca nagrania: algorytm energii sygnału, algorytm częstości zmian sygnału. Preemfaza – zamiana sygnału rzeczywistego na sygnał różnicowy (filtr o skończonej odpowiedzi impulsowej). Funkcja przejścia filtru: y(n) = s(n) - as(n-1) Gdzie: a parametr preemfazy (wartości z zakresu: 0.95 - 1)

Przygotowanie próbek głosu 2z2 Ramki sygnału i funkcja okna - próbki sygnału mowy dzielone są na ramki o stałym rozmiarze, ponieważ zakłada się, że sygnał mowy jest stacjonarny w krótkim okresie czasu ok. 10 ms. Funkcja okna tłumi skrajnie położone próbki w wydzielonych ramkach. Funkcja okna Hamminga w(n) = 0.54 – 0.46cos(2n/N) Gdzie: k=1...N-1, N – rozmiar okna Hamminga

Ekstrakcja parametrów1z4 Ekstrakcja parametrów ma na celu wydobycie z sygnału mowy informacji jednoznacznie charakteryzujących mówcę. Rodzaj wydobywanych parametrów i ich liczba mają decydujące znaczenie w procesie rozpoznawania. Parametry biorące udział w procesie rozpoznawania mówcy: - parametry liniowego kodowania predykcyjnego (metoda LPC) - parametry cepstralne (metody: LPCC, MFCC)

Ekstrakcja parametrów2z4 LPC (Linear Predictive Coefficients) Metoda autokorelacji: minimalizacja błędu średnio kwadratowego

Ekstrakcja parametrów3z4 LPCC (Linear Predictive Cepstral Coefficients) Obliczenie współczynników cepstralnych na podstawie parametrów LPC:

Ekstrakcja parametrów4z4 MFCC (Mel frequency Cepstral Coefficients) moc spektrum mowa Podział sygnału na ramki ramki FFT Skala mel log mel spektrum mel spektrum mel cepstrum IFFT Log

Rozrzedzona pamięć rozproszona1z2 Operacja zapisu:

Rozrzedzona pamięć rozproszona2z2 Operacja odczytu:

Aplikacja “Speaker Recogniotion – Genetic Sparse Distributed Memory”1z5 Program “Speaker Recogniotion – Genetic Sparse Distributed Memory” (SR-GSDM) jest aplikacją umożliwiającą identyfikację mówcy lub jego weryfikację na podstawie pobranych próbek głosu.

Aplikacja “Speaker Recogniotion – Genetic Sparse Distributed Memory”2z5 1. Przygotowanie plików WAVE (m.in. usunięcie ciszy) 2. Ekstrakcja parametrów – budowa wektora cech 3. Tworzenie zbiorów uczących 4. Uczenie pamięci GSDM

Aplikacja “Speaker Recogniotion – Genetic Sparse Distributed Memory”3z5  identyfikacja mówcy weryfikacja mówcy 

Aplikacja “Speaker Recogniotion – Genetic Sparse Distributed Memory”4z5 LPC identyfikacja MFCC LPCC

Aplikacja “Speaker Recogniotion – Genetic Sparse Distributed Memory”5z5 weryfikacja

KONIEC Dziękuję za uwagę