Systemy Wizyjne i Głosowe

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

Przetworniki pomiarowe
Wykład 5: Dyskretna Transformata Fouriera, FFT i Algorytm Goertzela
Wykład 6: Dyskretna Transformata Fouriera, FFT i Algorytm Goertzela
Sterowanie – metody alokacji biegunów II
Ilustracja obliczania całek oznaczonych metodą Monte Carlo
Zaawansowane metody analizy sygnałów
Metody syntezy dźwięku
Anna Bączkowska Praca po kierunkiem dr M. Berndt - Schreiber
Generatory napięcia sinusoidalnego
Sprzężenie zwrotne Patryk Sobczyk.
Kodery audio operujące w dziedzinie częstotliwości
DIELEKTRYKI TADEUSZ HILCZER.
DIELEKTRYKI TADEUSZ HILCZER
Stratna kompresja dźwięku
Ulepszenia metody Eigenfaces
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Zaawansowane metody analizy sygnałów
Dzisiaj na wykładzie Regresja wieloraka – podstawy i założenia
Systemy dynamiczne 2010/2011Systemy i sygnały - klasyfikacje Kazimierz Duzinkiewicz, dr hab. inż.Katedra Inżynierii Systemów Sterowania 1 Dlaczego taki.
Rozpoznawanie obrazów
Paweł Kramarski Seminarium Dyplomowe Magisterskie 2
Wyższa Szkoła Informatyki i Zarządzania
Sieci Hopfielda.
PRACA DYPLOMOWA MAGISTERSKA Kraków 2006
Sztuczne Sieci Neuronowe
Anatomia i fizjologia narządów mowy
Cele i rodzaje modulacji
Komputerowe metody przetwarzania obrazów cyfrowych
Rozważaliśmy w dziedzinie czasu zachowanie się w przedziale czasu od t0 do t obiektu dynamicznego opisywanego równaniem różniczkowym Obiekt u(t) y(t) (1a)
Wykład 21 Regulacja dyskretna. Modele dyskretne obiektów.
Detekcja twarzy w obrazach cyfrowych
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Automatyka Wykład 26 Analiza układu regulacji cyfrowej z regulatorem PI i obiektem inercyjnym I-go rzędu.
Częstotliwość próbkowania, aliasing
Modele dyskretne obiektów liniowych
SW – Algorytmy sterowania
ISS – Synteza regulatora cyfrowego (minimalnoczasowego)
Głoska GŁOSKA –najmniejszy element dźwiękowej formy wypowiedzi charakteryzujący się stałym zespołem cech: artykulacyjnych, tzn. związanych z położeniem/
Koło naukowe „Sieci” Opiekun: Prof. Dr hab. Inż. Wiesław Wajs
Wyznaczenie prędkości dźwięku w powietrzu
Metody odszumiania sygnałów
KARTY DŹWIĘKOWE.
PROJEKT EDUKACYJNY W GIMNAZJUM Z FIZYKI
Sieci neuronowe, falki jako przykłady metod analizy sygnałów
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Estymacja reprezentacji biegunowych: POLIDEM
COACH Program COACH umożliwia wykonywanie pomiarów fizycznych, między innymi fal akustycznych. Poza tym pozwala na analizowanie i przetwarzanie (np. rozkład.
ZAAWANSOWANA ANALIZA SYGNAŁÓW
Analiza czasowo-częstotliwościowa
Całkowanie różniczkowego równania ruchu metodą Newmarka
Metody automatycznego rozpoznawania głosów ptaków
Szeregi czasowe Ewolucja stanu układu dynamicznego opisywana jest przez funkcję czasu f(t) lub przez szereg czasowy jego zmiennych dynamicznych. Szeregiem.
Rozpoznawanie głosów ptaków
Model Lopesa da Silvy – opis matematyczny Zmienne modelu: V e (t) – średni potencjał w populacji pobudzającej E(t) – średnia częstość odpalania w populacji.
Wykład 3,4 i 5: Przegląd podstawowych transformacji sygnałowych
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
WYKORZYSTANIE ANALIZY HFCC W ROZPOZNAWANIU GŁOSÓW PTAKÓW
Filtracja obrazów cd. Filtracja obrazów w dziedzinie częstotliwości
Systemy neuronowo – rozmyte
Podstawy automatyki I Wykład /2016
Transformacja Z -podstawy
The Discrete-Time Fourier Transform (DTFT)
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Postępy w przygotowaniu rozprawy doktorskiej
Systemy Ekspertowe i Sztuczna Inteligencja trudne pytania
Sterowanie procesami ciągłymi
EM Midsemester TEST Łódź
Zapis prezentacji:

Systemy Wizyjne i Głosowe Maciej Mraczek Piotr Szczepanik Michał Mrówczyński Kamil Ciepiela Systemy Wizyjne i Głosowe Temat projektu:   Weryfikacja autorów wypowiedzi na podstawie próbek sygnału mowy Kraków, 4 czerwca 2009 AiR, EAIiE, AGH

Wprowadzenie Za metodę rozpoznawania uważamy cały tor przetwarzania i rozpoznawania próbki głosowej. Ogólny algorytm wygląda następująco: Pobranie próbki głosowej Wstępne przetworzenie (np. filtry, usunięcie ciszy, etc.) Ekstrakcja cech daną metodą Zastosowanie klasyfikatora Rezultat rozpoznania: - konkretny mówca - brak rozpoznania

Cele projektu Celem projektu było zaimplementowanie kilku metod ekstrakcji cech oraz klasyfikacji próbek dźwięku w kontekście utworzonej wcześniej bazy próbek „treningowych”. Efektem końcowym powinna być możliwość rozpoznania mówcy po wypowiedzeniu zdania „Rozpoznaj kim jestem” przynajmniej jedną z zaimplementowanych metod.

Wstępne przetwarzanie zastosowane w torze przetwarzania Wszystkie nagrane próbki poddane zostały normalizacji oraz wycięciu składowej stałej

Zaimplementowane metody ekstrakcji cech z pobranej próbki dźwięku FFT LPC MFCC

FFT Fast Fourier Transform – jest to transformacja sygnału z dziedziny czasu do dziedziny częstotliwości W projekcie została przetestowana metoda rozpoznawania mówcy poprzez porównanie transformaty sygnału jego głosu z transformatami sygnałów głosów wzorcowych.

MFCC MFCC czyli Mel-frequency cepstral coefficients jest to metoda cepstralnych współczynników opartych na skali Mel’a. Stosowana jest powszechnie w systemach rozpoznawania mowy ze względu na dużą skuteczność. Algorytm Z sygnału dźwiękowego robimy dyskretną transformatę Fourier’a Powstałe spectrum przeliczamy na skalę Mel’a (używając trójątnego okna) Logarytmujemy każdą częstotliwość na skali Mel’a Poddajemy dyskretnej transformacie cosinusowej Następnie odwrotna dyskretna transformata Fourier’a Amplitudy tak powstałego sygnału to współczynniki MFCC

Skala Mel’a Skala Mel’a ta została tak stworzona, aby lepiej oddawać wrażenia słuchowe poprzez wzmocnienie częstotliwości słyszalnych. Dokonujemy tego za pomocą przekształcenia wzorem:  

LPC Linear predictive coding jest to algorytm używany najczęściej do przetwarzania sygnałów dźwiękowych oraz sygnału mowy. W wyniku kodowania otrzymujemy reprezentację sygnału cyfrowego, będącą parametrami modelu predykcji liniowej przetwarzanego sygnału.

LPC charakterystyka metody Bardzo dobre osiągi metody LPC związane są z istotą działania ludzkiego aparatu mowy. W budowie aparatu mowy wyróżniamy część oddechową, fonacyjną i artykulacyjną. Przy analizie dźwięku najbardziej interesują nas te dwie ostatnie, ponieważ działanie ich determinuje dźwięk wydawany przez człowieka. Główną częścią aparatu fonacyjnego jest krtań. Przepływające powietrze wprawia w drżenie struny głosowe, w wyniku czego powstaje tzw. ton krtaniowy. Następnie dźwięk przechodzi przez gardło i usta tworzące układ rezonansowy. Powstaje tam tzw. formant – pasmo częstotliwości uwypuklone w barwie dźwięku. Ostateczne brzmienie głoski formowane jest poprzez język i usta. LPC analizując mowę wyznacza wspomniane wcześniej formanty. Następnie usuwa je z sygnału pozostawiając tylko charakterystyczne dla każdej głoski dźwięki. Proces ten nazywamy filtrowaniem wstecznym, a sygnał który pozostaje po odjęciu nazywamy rezydułem.

Zaimplementowane klasyfikatory Metoda najbliższego sąsiedztwa

Zaimplementowane klasyfikatory Metoda alfa-N

Testy Test poprawności rozpoznawania mówcy Test poprawności rozpoznawania mówcy, który nie jest w bazie (obcy) Wyznaczanie optymalnej ilości współczynników liczonych metodą MFCC Wyznaczenie optymalnego rzędu metody LPC

Testy - Pierwsza metoda – FFT

Testy - Druga metoda – L{C

Testy - Druga metoda – LPC

Testy - Druga metoda – LPC Rysunek 3 Dla alpha=2, distance=1,5 Rysunek 4 Dla alpha=6, distance=1,5

Testy - Trzecia metoda – MFCC

Testy - Trzecia metoda – MFCC

Testy - Trzecia metoda – MFCC Dla alpha=2, distance=1,5 Dla alpha=3, distance=1,5

Podsumowanie i wnioski Najlepszą metodą okazała się MFCC; trochę gorsze rezultaty dała metoda LPC Metoda FFT nie dała pozytywnych rezultatów – wyniki można zakwalifikować jako losowe Skuteczność rozpoznawania zależy głównie od parametrów alpha i odległość – jednak ich optymalizacja nie jest taka oczywista – wszystko zależy od tego, co chcemy osiągnąć: wysoki procent rozpoznawania mówców z bazy, czy skuteczne rozpoznawanie mówcy „obcego” (jako „nie wiem”) – chęć wysokich wyników w obu dziedzinach wymaga kompromisów Możemy również zmieniać parametry związane z poszczególnymi metodami, które również wpływają na jakość rozpoznawania: w LPC – rząd metody w MFCC – ilość współczynników cepstralnych (w MatLabie dostępnych jest więcej parametrów liczenia współczynników cepstralnych, jednak nie zostały one zgłębione i zbadane przez nas; poza tym można inaczej wyznaczyć wektor opisujący daną próbkę – w naszym przypadku użyto funkcji kmeans)

Podsumowanie i wnioski Wyniki testów mogą nie być bardzo obiektywne ze względu na małą liczbę próbek „treningowych” w bazie Istotne znaczenie może mieć również jakość sprzętu nagrywającego (mikrofon + karta dźwiękowa) Jako ulepszenie działania naszego toru rozpoznawania mówcy, mogłoby sprawdzić się przemnożenie sygnałów wejściowych przez okno Hamminga

DZIĘKUJEMY ZA UWAGĘ