Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Rozpoznawanie głosów ptaków

Podobne prezentacje


Prezentacja na temat: "Rozpoznawanie głosów ptaków"— Zapis prezentacji:

1 Rozpoznawanie głosów ptaków
Dr inż. Robert Wielgat Państwowa Wyższa Szkoła Zawodowa w Tarnowie Zakład Elektroniki i Telekomunikacji - Dzień otwarty w PWSZ 13 marca 2009

2 Charakterystyka głosów ptaków
- Dźwięki głównie harmoniczne, zasadniczo brak składowych szumowych - Dwie pary strun głosowych, - W przypadku wielu głosów ptaków występują składowe ultradźwiękowe niesłyszalne dla ucha ludzkiego t rz y Częstotliwość [Hz] Czas [s]

3 Znaczenie rozpoznawania głosów ptaków
Wykrywanie rzadkich gatunków ptaków w celu ochrony ich siedlisk Monitoring ptaków i wykrywanie zagrożeń ekologicznych (FBI –Farmland Bird Index) Ochrona upraw rolnych Ochrona lotnisk i samolotów

4 Projekt „BIRDSMOND” B I R D S M O N D
Od czerwca 2008 roku w Państwowej Wyższej Szkole Zawodowej w Tarnowie jest realizowany grant MNiSW Nr N N pt. „Opracowanie automatycznego systemu akustycznego monitoringu ptaków dla Ciężkowicko-Rożnowskiego Parku Krajobrazowego” we współpracy z: Zespołem Parków Krajobrazowych Pogórza w Tarnowie, Uniwersytetem Jagielońskim, Małopolskim Towarzystwem Ornitologicznym, Akademią Górniczo-Hutniczą, Uniwersytetem Rolniczym w Krakowie. Od września 2008 roku projekt nosi nazwę: B I R D S M O N D będącą akronimem od: BIRD SOUND MONITORING DATABASE

5 System akustycznego monitoringu ptaków
Automatyczny Obserwator Program rozpoznający w trybie bez nadzoru Stacjonarny rejestrator cyfrowy Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator

6 System akustycznego monitoringu ptaków
Automatyczny Obserwator Program rozpoznający w trybie bez nadzoru Stacjonarny rejestrator cyfrowy Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator

7 Stacjonarny rejestrator cyfrowy
LCD Klawiatura Bezprzewodowy transceiver Antena Zegar Czasu rzeczy- wistego MIKROKONTROLER FAT32 4 x Szerokopas-mowy mikrofon pojemnościowy Karta pamięci A/C C/A 4 x wzmacniacz mikrofonowy Wzmacniacz mocy Zestaw głośnikowy

8 System akustycznego monitoringu ptaków
Automatyczny Obserwator Program rozpoznający w trybie bez nadzoru Stacjonarny rejestrator cyfrowy Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator

9 System akustycznego monitoringu ptaków
Automatyczny Obserwator Program rozpoznający w trybie bez nadzoru Stacjonarny rejestrator cyfrowy Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator

10 Przenośny rejestrator cyfrowy
LCD Klawiatura GPS Antena Zegar czasu rzeczy-wistego MIKROKONTROLER FAT32 4 x Szerokopas-mowy mikrofon pojemnościowy Karta pamięci Słuchawki A/C C/A 4 x wzmacniacz mikrofonowy Wzmacniacz słuchawkowy

11 System akustycznego monitoringu ptaków
Automatyczny Obserwator Program rozpoznający w trybie bez nadzoru Stacjonarny rejestrator cyfrowy Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator

12 System akustycznego monitoringu ptaków
Automatyczny Obserwator Program rozpoznający w trybie bez nadzoru Stacjonarny rejestrator cyfrowy Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator

13 Program rozpoznający pracujący w trybie bez nadzoru
Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków. Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach: etap ekstrakcji cech etap klasyfikacji Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.

14 Program rozpoznający pracujący w trybie bez nadzoru
Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków. Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach: etap ekstrakcji cech etap klasyfikacji Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.

15 Ekstrakcja cech Z sygnału akustycznego będącego głosem ptaka można wyekstrahować różnorodne cechy np.: Kodowanie sygnału w dziedzinie czasu (ang. TDSC -Time Domain Signal Coding) , Maksima widmowe (ang. spectral peaks), Falki (ang. wavelets), Parametry mel-cepstralne (ang. MFCC - Mel Frequency Cepstral Coefficients), Parametry HFCC (ang. HFCC - Human Factor Cepstral Coefficients). Etap ekstrakcji cech in jest niekiedy poprzedzany wstępnym przetwarzaniem sygnału jak np. filtracja pasmowo-przepustowa, redukcja szumów itp.

16 Ekstrakcja cech Z sygnału akustycznego będącego głosem ptaka można wyekstrahować różnorodne cechy np.: Kodowanie sygnału w dziedzinie czasu (ang. TDSC -Time Domain Signal Coding) , Maksima widmowe (ang. spectral peaks), Falki (ang. wavelets), Parametry mel-cepstralne (ang. MFCC - Mel Frequency Cepstral Coefficients), Parametry HFCC (ang. HFCC - Human Factor Cepstral Coefficients). Etap ekstrakcji cech in jest niekiedy poprzedzany wstępnym przetwarzaniem sygnału jak np. filtracja pasmowo-przepustowa, redukcja szumów itp.

17 Parametry MFCC (mel-cepstralne)
1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych: Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. 6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

18 Parametry MFCC (mel-cepstralne)
1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych: Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. 6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

19 Dzielenie sygnału na ramki
30 ms t [ms] 20 ms Ramka 1 Ramka 2 Ramka 3 Ramka 4 Ramka 5

20 Parametry MFCC (mel-cepstralne)
1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych: Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. 6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

21 Parametry MFCC (mel-cepstralne)
1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych: Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. 6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

22 Okienkowanie sygnału x =
Okienkowanie sygnału polega na przemnożeniu próbek w ramce sygnału przez funkcję okna. Funkcja okna (np. okno Hamminga) t t x = t Sygnał w ramce przemnożony przez funkcję okna Sygnał w ramce

23 Parametry MFCC (mel-cepstralne)
1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych: Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. 6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

24 Parametry MFCC (mel-cepstralne)
1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych: Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. 6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

25 Mel-Frequency Cepstral Coefficients (MFCC)
“Obliczenie mocy FFT w określonych pasmach częstotliwościowych” Częstotliwości środkowe w tych pasmach są równomiernie rozmieszczone względem melowej skali częstotliwościowej. Szerokość pasma jest powiązana z rozmieszczeniem częstotliwości środkowych pasma zachodzą na siebie na połowie swej długości. The most important issue in mel-frequency Cepstral coefficients is spacing of center frequencies in frequency bands. These center frequencies are equally spaced in mel-frequency scale.

26 Parametry MFCC (mel-cepstralne)
1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych: Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. 6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta

27 Program rozpoznający pracujący w trybie bez nadzoru
Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków. Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach: etap ekstrakcji cech etap klasyfikacji Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.

28 Program rozpoznający pracujący w trybie bez nadzoru
Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków. Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach: etap ekstrakcji cech etap klasyfikacji Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.

29 Klasyfikacja Najbardziej obiecującymi metodami klasyfikacji w rozpoznawaniu głosów ptaków są: Wyszukiwanie haseł oparte na Nieliniowej transformacji czasowej (ang. Dynamic Time Warping - DTW) Metoda niejawnych modeli Markowa (ang. Hidden Markov Models – HMM). iY iX BIRD VOICE X BIRD VOICE Y 1 N M 2 3 4 5 1 o1 o2 o3 o4 o5 o6 a23 a22 b2(o1) b2(o2) b2(o3) b4(o5) b3(o4) b4(o6) a34 a45 a12 a33 a44 HMM DTW

30 Nieliniowa transformacja czasowa (DTW)
Celem algorytmu nieliniowej transformacji czasowej jest znalezienie najniższego zakumulowanego kosztu przejścia między punktami siatki odległości iY M S Ł O W O Y 1 IX - indeksy wektorów cech słowa x IY - indeksy wektorów cech słowa y iX 1 N S Ł O W O X

31 Nierozwiązane problemy rozpoznawania głosów ptaków
Naśladownictwo - myszołów - szpak naśladujący myszołowa Nakładanie się głosów ptaków tzw. efekt „coctail party” - ptaki śpiewające jednocześnie Rozpoznawanie w warunkach dużego szumu i hałasu otoczenia Rozpoznawanie dużej liczby gatunków ptaków

32 Trznadel (łac. Emberizza citrinella)
Sójka (łac. Garrulus glandarius) Trznadel (łac. Emberizza citrinella) Serdecznie zapraszamy Państwa do odwiedzania strony internetowej projektu BIRDSMOND

33 Dziękuję Państwu za uwagę


Pobierz ppt "Rozpoznawanie głosów ptaków"

Podobne prezentacje


Reklamy Google