Rozpoznawanie głosów ptaków

Slides:



Advertisements
Podobne prezentacje
Przetwarzanie sygnałów Filtry
Advertisements

Wykład 6: Filtry Cyfrowe – próbkowanie sygnałów, typy i struktury f.c.
Wykład 5: Dyskretna Transformata Fouriera, FFT i Algorytm Goertzela
Wykład 6: Dyskretna Transformata Fouriera, FFT i Algorytm Goertzela
Dźwiękowa Technika Studyjna
Wykład no 14.
Życiorys mgr inż. Robert Piotrowski Katedra Systemów Mikroelektronicznych WETI PG Urodzony: r. Wykształcenie: studia doktoranckie na.
Metody identyfikacji i lokalizacji sekwencji kodujących w genomie
Metody syntezy dźwięku
Katedra Telekomunikacji Morskiej
1. Przetworniki parametryczne, urządzenia w których
Budowa zewnętrzna komputera
Skalowalny algorytm estymacji ruchu dla systemów rozproszonych
Wzmacniacze – ogólne informacje
Opracowanie zasad tworzenia programów ochrony przed hałasem mieszkańców terenów przygranicznych związanych z funkcjonowaniem dużych przejść granicznych.
ATRAC Adaptive Transform Acoustic Coding PTMT MiniDisc - 1/5 pojemności standardowego CD - 74 min dźwięku ATRAC pasmo 22 kHz (cz ęstotliwość próbkowania.
Kodery audio operujące w dziedzinie częstotliwości
Właściwości energetyczne sygnałów
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Zaawansowane metody analizy sygnałów
Systemy dynamiczne 2010/2011Systemy i sygnały - klasyfikacje Kazimierz Duzinkiewicz, dr hab. inż.Katedra Inżynierii Systemów Sterowania 1 Dlaczego taki.
Oprogramowanie rejestratora pikosekundowych przebiegów elektrycznych
Paweł Kramarski Seminarium Dyplomowe Magisterskie 2
Podstawowe pojęcia akustyki
Praca dyplomowa inżynierska
PRACA DYPLOMOWA MAGISTERSKA Kraków 2006
Cele i rodzaje modulacji
Komputerowe metody przetwarzania obrazów cyfrowych
Systemy Wizyjne i Głosowe
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Częstotliwość próbkowania, aliasing
Podstawy Techniki Cyfrowej
Metody odszumiania sygnałów
KARTY DŹWIĘKOWE.
Sieci neuronowe, falki jako przykłady metod analizy sygnałów
Psychoakustyczna analiza i perceptualne kodowanie mowy.
ZAAWANSOWANA ANALIZA SYGNAŁÓW Nieparametryczne metody analizy częstotliwościowej Marcin Kępara, STI, sem. 09.
Estymacja reprezentacji biegunowych: POLIDEM
APARATY SŁUCHOWE i IMPLANTY ŚLIMAKOWE
Maciej Gwiazdoń, Mateusz Suder, Szymon Szymczk
COACH Program COACH umożliwia wykonywanie pomiarów fizycznych, między innymi fal akustycznych. Poza tym pozwala na analizowanie i przetwarzanie (np. rozkład.
Systemy telekomunikacji optycznej
Odporność na szum Pojęcia podstawowe
Analiza czasowo-częstotliwościowa
Analiza czasowo-częstotliwościowa
Metody automatycznego rozpoznawania głosów ptaków
Szeregi czasowe Ewolucja stanu układu dynamicznego opisywana jest przez funkcję czasu f(t) lub przez szereg czasowy jego zmiennych dynamicznych. Szeregiem.
Leszek Rybicki Filip Piękniewski
Cyfrowe systemy pomiarowe
 1. Projektowanie instalacji elektrycznych, sieci elektrycznych 2. Montaż instalacji elektrycznych zgodnie z dokumentacją techniczną.
Telekomunikacja Bezprzewodowa (ćwiczenia - zajęcia 12,13)
Właściwości dźwięku.
Cyfrowe przetwarzanie sygnałów. Analiza dźwięku i obrazu
Nowoczesne techniki nagłaśniania imprez masowych dla dużej widowni, oraz realizacji i rejestracji koncertów „Na żywo”
Linia 100V.
System telefonii przewodowej PSTN – Public Switched Telephone Network POTS – Plain Old Telephone Service.
1 Proces analizy i rozpoznawania. 2 Jak przygotować dwie klasy obiektów?
"Projekt zintegrowanego systemu teleinformatycznego dla obiektu specjalnego" Rafał Byczek Z 703.
WYKORZYSTANIE ANALIZY HFCC W ROZPOZNAWANIU GŁOSÓW PTAKÓW
Andrzej Bąkowski Leszek Radziszewski Zbigniew Skrobacki
Filtracja obrazów cd. Filtracja obrazów w dziedzinie częstotliwości
MODULACJE Z ROZPROSZONYM WIDMEM
„mowa ptaków” Dr inż. Agnieszka Lisowska-Lis Dr inż. Robert Wielgat
Materiały do wykładu PTS 2010
Postępy w przygotowaniu rozprawy doktorskiej
Elektronika.
Liceum Ogólnokształcące im. Sebastiana Petrycego w Pilźnie
Liceum Ogólnokształcące im. Sebastiana Petrycego w Pilźnie
Zapis prezentacji:

Rozpoznawanie głosów ptaków Dr inż. Robert Wielgat Państwowa Wyższa Szkoła Zawodowa w Tarnowie Zakład Elektroniki i Telekomunikacji - Dzień otwarty w PWSZ 13 marca 2009

Charakterystyka głosów ptaków - Dźwięki głównie harmoniczne, zasadniczo brak składowych szumowych - Dwie pary strun głosowych, - W przypadku wielu głosów ptaków występują składowe ultradźwiękowe niesłyszalne dla ucha ludzkiego t rz y Częstotliwość [Hz] Czas [s]

Znaczenie rozpoznawania głosów ptaków Wykrywanie rzadkich gatunków ptaków w celu ochrony ich siedlisk Monitoring ptaków i wykrywanie zagrożeń ekologicznych (FBI –Farmland Bird Index) Ochrona upraw rolnych Ochrona lotnisk i samolotów

Projekt „BIRDSMOND” B I R D S M O N D Od czerwca 2008 roku w Państwowej Wyższej Szkole Zawodowej w Tarnowie jest realizowany grant MNiSW Nr N N519 402934 pt. „Opracowanie automatycznego systemu akustycznego monitoringu ptaków dla Ciężkowicko-Rożnowskiego Parku Krajobrazowego” we współpracy z: Zespołem Parków Krajobrazowych Pogórza w Tarnowie, Uniwersytetem Jagielońskim, Małopolskim Towarzystwem Ornitologicznym, Akademią Górniczo-Hutniczą, Uniwersytetem Rolniczym w Krakowie. Od września 2008 roku projekt nosi nazwę: B I R D S M O N D będącą akronimem od: BIRD SOUND MONITORING DATABASE

System akustycznego monitoringu ptaków Automatyczny Obserwator Program rozpoznający w trybie bez nadzoru Stacjonarny rejestrator cyfrowy Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator

System akustycznego monitoringu ptaków Automatyczny Obserwator Program rozpoznający w trybie bez nadzoru Stacjonarny rejestrator cyfrowy Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator

Stacjonarny rejestrator cyfrowy LCD Klawiatura Bezprzewodowy transceiver Antena Zegar Czasu rzeczy- wistego MIKROKONTROLER FAT32 4 x Szerokopas-mowy mikrofon pojemnościowy Karta pamięci A/C C/A 4 x wzmacniacz mikrofonowy Wzmacniacz mocy Zestaw głośnikowy

System akustycznego monitoringu ptaków Automatyczny Obserwator Program rozpoznający w trybie bez nadzoru Stacjonarny rejestrator cyfrowy Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator

System akustycznego monitoringu ptaków Automatyczny Obserwator Program rozpoznający w trybie bez nadzoru Stacjonarny rejestrator cyfrowy Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator

Przenośny rejestrator cyfrowy LCD Klawiatura GPS Antena Zegar czasu rzeczy-wistego MIKROKONTROLER FAT32 4 x Szerokopas-mowy mikrofon pojemnościowy Karta pamięci Słuchawki A/C C/A 4 x wzmacniacz mikrofonowy Wzmacniacz słuchawkowy

System akustycznego monitoringu ptaków Automatyczny Obserwator Program rozpoznający w trybie bez nadzoru Stacjonarny rejestrator cyfrowy Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator

System akustycznego monitoringu ptaków Automatyczny Obserwator Program rozpoznający w trybie bez nadzoru Stacjonarny rejestrator cyfrowy Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator

Program rozpoznający pracujący w trybie bez nadzoru Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków. Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach: etap ekstrakcji cech etap klasyfikacji Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.

Program rozpoznający pracujący w trybie bez nadzoru Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków. Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach: etap ekstrakcji cech etap klasyfikacji Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.

Ekstrakcja cech Z sygnału akustycznego będącego głosem ptaka można wyekstrahować różnorodne cechy np.: Kodowanie sygnału w dziedzinie czasu (ang. TDSC -Time Domain Signal Coding) , Maksima widmowe (ang. spectral peaks), Falki (ang. wavelets), Parametry mel-cepstralne (ang. MFCC - Mel Frequency Cepstral Coefficients), Parametry HFCC (ang. HFCC - Human Factor Cepstral Coefficients). Etap ekstrakcji cech in jest niekiedy poprzedzany wstępnym przetwarzaniem sygnału jak np. filtracja pasmowo-przepustowa, redukcja szumów itp.

Ekstrakcja cech Z sygnału akustycznego będącego głosem ptaka można wyekstrahować różnorodne cechy np.: Kodowanie sygnału w dziedzinie czasu (ang. TDSC -Time Domain Signal Coding) , Maksima widmowe (ang. spectral peaks), Falki (ang. wavelets), Parametry mel-cepstralne (ang. MFCC - Mel Frequency Cepstral Coefficients), Parametry HFCC (ang. HFCC - Human Factor Cepstral Coefficients). Etap ekstrakcji cech in jest niekiedy poprzedzany wstępnym przetwarzaniem sygnału jak np. filtracja pasmowo-przepustowa, redukcja szumów itp.

Parametry MFCC (mel-cepstralne) 1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych: Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. 6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

Parametry MFCC (mel-cepstralne) 1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych: Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. 6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

Dzielenie sygnału na ramki 30 ms t [ms] 20 ms Ramka 1 Ramka 2 Ramka 3 Ramka 4 Ramka 5

Parametry MFCC (mel-cepstralne) 1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych: Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. 6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

Parametry MFCC (mel-cepstralne) 1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych: Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. 6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

Okienkowanie sygnału x = Okienkowanie sygnału polega na przemnożeniu próbek w ramce sygnału przez funkcję okna. Funkcja okna (np. okno Hamminga) t t x = t Sygnał w ramce przemnożony przez funkcję okna Sygnał w ramce

Parametry MFCC (mel-cepstralne) 1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych: Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. 6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

Parametry MFCC (mel-cepstralne) 1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych: Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. 6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

Mel-Frequency Cepstral Coefficients (MFCC) “Obliczenie mocy FFT w określonych pasmach częstotliwościowych” Częstotliwości środkowe w tych pasmach są równomiernie rozmieszczone względem melowej skali częstotliwościowej. Szerokość pasma jest powiązana z rozmieszczeniem częstotliwości środkowych pasma zachodzą na siebie na połowie swej długości. The most important issue in mel-frequency Cepstral coefficients is spacing of center frequencies in frequency bands. These center frequencies are equally spaced in mel-frequency scale.

Parametry MFCC (mel-cepstralne) 1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych: Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. 6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

Program rozpoznający pracujący w trybie bez nadzoru Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków. Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach: etap ekstrakcji cech etap klasyfikacji Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.

Program rozpoznający pracujący w trybie bez nadzoru Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków. Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach: etap ekstrakcji cech etap klasyfikacji Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.

Klasyfikacja Najbardziej obiecującymi metodami klasyfikacji w rozpoznawaniu głosów ptaków są: Wyszukiwanie haseł oparte na Nieliniowej transformacji czasowej (ang. Dynamic Time Warping - DTW) Metoda niejawnych modeli Markowa (ang. Hidden Markov Models – HMM). iY iX BIRD VOICE X BIRD VOICE Y 1 N M 2 3 4 5 1 o1 o2 o3 o4 o5 o6 a23 a22 b2(o1) b2(o2) b2(o3) b4(o5) b3(o4) b4(o6) a34 a45 a12 a33 a44 HMM DTW

Nieliniowa transformacja czasowa (DTW) Celem algorytmu nieliniowej transformacji czasowej jest znalezienie najniższego zakumulowanego kosztu przejścia między punktami siatki odległości iY M S Ł O W O Y 1 IX - indeksy wektorów cech słowa x IY - indeksy wektorów cech słowa y iX 1 N S Ł O W O X

Nierozwiązane problemy rozpoznawania głosów ptaków Naśladownictwo - myszołów - szpak naśladujący myszołowa Nakładanie się głosów ptaków tzw. efekt „coctail party” - ptaki śpiewające jednocześnie Rozpoznawanie w warunkach dużego szumu i hałasu otoczenia Rozpoznawanie dużej liczby gatunków ptaków

Trznadel (łac. Emberizza citrinella) Sójka (łac. Garrulus glandarius) Trznadel (łac. Emberizza citrinella) Serdecznie zapraszamy Państwa do odwiedzania strony internetowej projektu BIRDSMOND www.birdsmond.pwsztar.edu.pl

Dziękuję Państwu za uwagę