Program wykładu informatyka +

Slides:



Advertisements
Podobne prezentacje
Temat 2: Podstawy programowania Algorytmy – 1 z 2 _________________________________________________________________________________________________________________.
Advertisements

© IEn Gdańsk 2011 Technika fazorów synchronicznych Łukasz Kajda Instytut Energetyki Oddział Gdańsk Zakład OGA Gdańsk r.
Równowaga chemiczna - odwracalność reakcji chemicznych
1 Dr Galina Cariowa. 2 Legenda Iteracyjne układy kombinacyjne Sumatory binarne Sumatory - substraktory binarne Funkcje i układy arytmetyczne Układy mnożące.
Tworzenie odwołania zewnętrznego (łącza) do zakresu komórek w innym skoroszycie Możliwości efektywnego stosowania odwołań zewnętrznych Odwołania zewnętrzne.
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania 1 Metody optymalizacji - Energetyka 2015/2016 Metody programowania liniowego.
Elementy akustyki Dźwięk – mechaniczna fala podłużna rozchodząca się w cieczach, ciałach stałych i gazach zakres słyszalny 20 Hz – Hz do 20 Hz –
Niepewności pomiarowe. Pomiary fizyczne. Pomiar fizyczny polega na porównywaniu wielkości mierzonej z przyjętym wzorcem, czyli jednostką. Rodzaje pomiarów.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
Przemiany energii w ruchu harmonicznym. Rezonans mechaniczny Wyk. Agata Niezgoda Projekt współfinansowany przez Unię Europejską w ramach Europejskiego.
 Czasem pracy jest czas, w którym pracownik pozostaje w dyspozycji pracodawcy w zakładzie pracy lub w innym miejscu wyznaczonym do wykonywania pracy.
EWALUACJA PROJEKTU WSPÓŁFINANSOWANEGO ZE ŚRODKÓW UNII EUROPEJSKIE J „Wyrównywanie dysproporcji w dostępie do przedszkoli dzieci z terenów wiejskich, w.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
W KRAINIE TRAPEZÓW. W "Szkole Myślenia" stawiamy na umiejętność rozumowania, zadawania pytań badawczych, rozwiązywania problemów oraz wykorzystania wiedzy.
Algorytmy Informatyka Zakres rozszerzony
Materiały pochodzą z Platformy Edukacyjnej Portalu Wszelkie treści i zasoby edukacyjne publikowane na łamach Portalu
Model warstwowy OSI Model OSI (Open Systems Interconnection) opisuje sposób przepływu informacji między aplikacjami programowymi w jednej stacji sieciowej.
Analiza spektralna. Laser i jego zastosowanie.
Microsoft PowerPoint. Metodyka „dobrej” prezentacji.
Czym jest gramofon DJ-ski?. Gramofon DJ-ski posiada suwak Pitch służący do płynnego przyspieszania bądź zwalniania obrotów talerza, na którym umieszcza.
Wieloaspektowa analiza czasowo- kosztowa projektów ze szczególnym uwzględnieniem kryterium jakości rozwiązań projektowych AUTOR: ANNA MARCINKOWSKA PROMOTOR:
Optymalna wielkość produkcji przedsiębiorstwa działającego w doskonałej konkurencji (analiza krótkookresowa) Przypomnijmy założenia modelu doskonałej.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Jak tworzymy katalog alfabetyczny? Oprac.Regina Lewańska.
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Mikroprocesory.
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
Wykład IV Zakłócenia i szumy.
wspomaganej systemem komputerowym NABÓR 2017
Minimalizacja automatu
W kręgu matematycznych pojęć
Schematy blokowe.
DEFINICJA I ZASTOSOWANIE W JĘZYKU HASKELL
SYSTEM KWALIFIKACJI, AWANSÓW I SPADKÓW
terminologia, skale pomiarowe, przykłady
On-the-Fly Garbage Collection
MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH
TYDZIEŃ ŚWIADOMOŚCI ZAGROŻENIA HAŁASEM
Liczby pierwsze.
ALGORYTMY I STRUKTURY DANYCH
Moje szczęście.
Podstawy automatyki I Wykład /2016
Wstęp do Informatyki - Wykład 3
Multimedia i grafika komputerowa
Podstawy teorii zachowania konsumentów
PROGRAMY DO KONTROLI RODZICIELSKIEJ
Bezpieczeństwo dostępu do danych w systemie Windows
Języki programowania.
Program wykładu informatyka +
GRUPY DANYCH : Funkcje dostępne z poziomu GRUP DANYCH
Tensor naprężeń Cauchyego
Problem Plecakowy (Problem złodzieja okradającego sklep)
Koszyk danych.
Podstawy informatyki Zygfryd Głowacz.
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
Implementacja rekurencji w języku Haskell
Znajdowanie liczb pierwszych w zbiorze
Doskonalenie rachunku pamięciowego u uczniów
REGRESJA WIELORAKA.
Prawa ruchu ośrodków ciągłych c. d.
Program na dziś Wprowadzenie Logika prezentacji i artykułu
WYBRANE ZAGADNIENIA PROBABILISTYKI
Najważniejsze operacje graficzne w programie GIMP
Zapis prezentacji:

Program wykładu informatyka + Jak słyszymy – podstawy fizyczne i psychofizyczne, efekty maskowania Sposoby zapisu sygnałów dźwiękowych Sposoby kodowania sygnałów dźwiękowych ze szczególnym uwzględnieniem MP3 Obiektywna i subiektywna ocena jakości sygnału dźwiękowego informatyka +

Dźwięk – fala akustyczna Fala dźwiękowa rozchodzi się jako podłużna fala akustyczna w danym ośrodku sprężystym: gazie, płynie. W ciałach stałych, takich jak metale, występuje również fala poprzeczna. Dźwięk, jako drgania cząsteczek, charakteryzuje się tym, iż cząsteczka pobudzona przekazuje energię cząstce sąsiedniej, a sama drga wokół własnej osi. Skutkiem tego są lokalne zmiany ciśnienia ośrodka rozchodzące się falowo. Fala dźwiękowa rozchodzi się jako podłużna fala akustyczna w danym ośrodku sprężystym: gazie, płynie. W ciałach stałych, takich jak metale, występuje również fala poprzeczna. Najczęściej mówimy o rozchodzeniu się dźwięku w powietrzu. Dźwięk, jako drgania cząsteczek, charakteryzuje się tym, iż cząsteczka pobudzona przekazuje energię cząstce sąsiedniej, a sama drga wokół własnej osi. Skutkiem tego są lokalne zmiany ciśnienia ośrodka rozchodzące się falowo. Co ciekawe w wodzie dźwięk rozchodzi się znacznie szybciej niż w powietrzu, a w próżni oczywiście nie rozchodzi się w ogóle. W potocznym znaczeniu dźwięk to każde rozpoznawalne przez człowieka pojedyncze wrażenie słuchowe. informatyka +

Jak odbieramy dźwięki ? informatyka + Ton jest elementarnym rodzajem dźwięku, dla którego fala dźwiękowa ma postać sinusoidy. Wrażenie wysokości dźwięku nie jest liniowo zależne od częstotliwości tonu. Występują różnice między lewym i prawym uchem. Elementarnym rodzajem dźwięku, dla którego fala dźwiękowa ma postać sinusoidy (rysunek na slajdzie) jest ton. Wysokość tonu to atrybut wrażenia słuchowego pozwalający na uszeregowanie dźwięków na skali niskie-wysokie. Przez wysokość dźwięku rozumie się częstotliwość drgań fali akustycznej, im wyższa częstotliwość drgań tym „wyższy” dźwięk. Na rysunku na slajdzie częstotliwość dolnego sygnału jest dwa razy większa niż górnego, zatem dźwięk o takim przebiegu będzie odbierany jako „wyższy”. Dźwięki są najczęściej sygnałami złożonymi (występuje w nich wiele składowych sinusoidalnych o różnych amplitudach i częstotliwościach). Wysokość dźwięku, często utożsamiana z częstotliwością i zależy od niej w największym stopniu, ale nie wyłącznie. Innymi wyznacznikami wrażenia wysokości są m. in. natężenie dźwięku, czy współobecności innych tonów. Występują też różnice w postrzeganiu wysokości dźwięku między lewym i prawym uchem. informatyka +

Jak odbieramy dźwięki ? informatyka + Interwały muzyczne to „odległości” między dźwiękami na skali muzycznej. Określone są stosunkiem częstotliwości sygnałów. Oktawa – interwał określający dźwięki, których stosunek częstotliwości = 2 : 1. Z pojęciem wysokości dźwięku związane są interwały muzyczne, czyli „odległości” między dźwiękami na skali muzycznej. Interwały określone są stosunkiem częstotliwości sygnałów. Oktawa jest to interwał określający dźwięki, których stosunek częstotliwości jest równy 2:1. informatyka +

Interpretacja interwałów, barwa dźwięku Człowiek jest w stanie interpretować poprawnie interwały muzyczne dla tonów o częstotliwości max ok. 5kHz Powyżej 2,5kHz występują znaczne błędy. Powyżej 5kHz brak wrażenia melodii chociaż spostrzegane są różnice częstotliwości. Barwa – cecha wrażenia słuchowego pozwalająca rozróżnić dwa dźwięki o takiej samej głośności i wysokości. Barwa instrumentu. Transjenty, narastanie dźwięku („nabrzmiewanie” i wybrzmiewanie”) Fortepian a skrzypce. Człowiek jest w stanie interpretować poprawnie interwały muzyczne dla tonów o częstotliwości max ok. 5kHz. Powyżej 2,5kHz występują znaczne błędy. Natomiast powyżej częstotliwości 5kHz występuje brak wrażenia melodii chociaż spostrzegane są różnice częstotliwości. Barwa dźwięku to cecha wrażenia słuchowego, dzięki której rozróżniamy dźwięki o tej samej głośności i częstotliwości. Barwa dźwięku zależy głównie od jego struktury widmowej, natężenia dźwięku i przebiegu czasowego dźwięku. I tak interesujące eksperymenty pokazują, że w przypadku niektórych instrumentów ważniejszą rolę odgrywa struktura widmowa (klarnet, trąbka), a innych – czasowa (flet). Kluczową rolę odgrywa też proces narastania i trwania dźwięku. Słuch ludzki charakteryzuje pewna niesymetryczność w odbiorze wysokości dźwięków w uchu lewym i prawym. U zdrowego człowieka różnice nie przekraczają zwykle 3%. Osoby o słuchu muzycznym potrafią określić wysokość dźwięku z dokładnością do 0,3-1 %. informatyka +

Analiza dźwięku informatyka + Bardzo często w celu analizy sygnału dźwiękowego korzysta się z jego częstotliwościowej reprezentacji. Mówimy wtedy o tzw. widmie sygnału dźwiękowego. Widmo sygnału dźwiękowego pozwala na zobrazowanie jakie składowe sinusoidalne będące funkcjami czasu (o jakich częstotliwościach i amplitudach) tworzą dany dźwięk. Na rysunku przedstawione jest przykładowe widmo sygnału dźwiękowego. Na osi x przedstawione są częstotliwości składowych sinusoidalnych. W tym przypadku zawierają się one w zakresie 43 Hz 12000 Hz. Z osi y można odczytać pośrednio informację o amplitudach składowych sinusoidalnych. informatyka +

Dźwięk W powietrzu w temperaturze otoczenia 20oC prędkość dźwięku wynosi ok. 345 m/s. Zakres częstotliwości od 20 Hz do 20 kHz jest zakresem częstotliwości słyszalnych (fonicznych, audio). Fala o częstotliwości 20 Hz ma długość 17,25 m. Fala o częstotliwości 20 kHz ma długość 1,72 cm. Dźwięki o częstotliwości mniejszej od 20 Hz są nazywane infradźwiękami, zaś o częstotliwości większej od 20 kHz – ultradźwiękami. Ultradźwięki są wykorzystywane przez istoty żywe – wiele gatunków posługuje się nimi w celu echolokacji. Na przykład większość nietoperzy wytwarza ultradźwięki krtanią i emituje je przez pysk lub nos (rzadziej), wiele gatunków posiada również duże i bardzo sprawne uszy. Są one zdolne do wykrywania owadów latających w ciemnościach (ćmy). Niektóre owady bronią się przed atakiem nietoperza dzięki zdolności do detekcji pochodzących od niego ultradźwięków. Nietoperz tuż przed atakiem wysyła w kierunku ofiary specjalną skupioną wiązkę sygnałów echolokacyjnych, aby zwiększyć precyzję pomiaru odległości. Jeżeli owad usłyszy taki dźwięk, natychmiast składa skrzydła i spada na ziemię, dzięki czemu nietoperz nie może go już odnaleźć. Ultradźwięki wykorzystują również walenie. Wieloryby używają ich do echolokacji w podobny sposób jak to się odbywa technice morskiej. Dzięki temu mogą namierzać ławice ryb lub plankton. Najdoskonalszy zmysł echolokacji posiadają delfiny. Na ich głowach znajduje się rezonator pozwalający na generowanie precyzyjnie ukierunkowanego strumienia ultradźwięków. Jednocześnie ogromne mózgi delfinów są w stanie przetworzyć uzyskane w ten sposób dane w trójwymiarowy model otoczenia. Badania nad tymi ssakami wykazały, że poprzez ultradźwięki postrzegają one swoje środowisko z taką precyzją jak my widzimy nasz świat oczami odbierającymi światło. Jednak delfiny są w stanie nie tylko dostrzec wszystko wokół siebie, ale również mogą zajrzeć do wnętrza innych istot. Ssaki te wykorzystują swoje zdolności podczas polowania. Mogą odnaleźć ukryte pod piaskiem zwierzęta. Niektórzy biolodzy uważają, że delfiny wykorzystują silne ultradźwięki również do ogłuszania swoich ofiar. Badania nad oddziaływaniem infradźwięków są prowadzone głównie na zwierzętach, z tego względu nie jest dokładnie poznany wpływ infradźwięków na człowieka. Wiele opracowań wskazuje, że przy narażeniu na wysokie poziomy infradźwięków mogą wystąpić: poczucie ucisku w uszach, dyskomfortu, nadmiernego zmęczenia, senności oraz zaburzenia sprawności psychomotorycznej i funkcji fizjologicznych, a nawet apatii i depresji. Jednak nie ma wiarygodnych badań wskazujących na szkodliwość występujących w życiu codziennym źródeł infradźwięków. Dopiero narażanie na bardzo wysoki poziom takiego typu hałasu może być niebezpieczne dla zdrowia. informatyka +

Zakres słyszalności informatyka + Głośność to taka cecha wrażenia słuchowego, która pozwala na uszeregowanie dźwięków na skali głośno-cicho. Teoretycznie ucho ludzkie potrafi odebrać i przetworzyć drgania o częstotliwości 16Hz do 20kHz. Jest to jednak duże uproszczenie nie mające wiele wspólnego z rzeczywistością. Okazuje się, że powyższy zakres jest słyszalny tylko wtedy, gdy energia dźwięku jest duża. Przy cichych dźwiękach czułość ucha drastycznie maleje w obszarze częstotliwości poniżej 200Hz oraz powyżej 8kHz. W tych zakresach trudniej jest również rozróżniać wysokość dźwięku. Zakres częstotliwościowy percepcji dźwięków maleje też wraz z wiekiem. Próg słyszalności (próg absolutny, próg detekcji sygnału) jest to najmniejszy poziom ciśnienia akustycznego dźwięku, który wywołuje zaledwie spostrzegane wrażenie słuchowe wobec braku innych dźwięków. Najniższa wartość ciśnienia akustycznego (przy częstotliwości 1000Hz) wykrywanego przez ucho ludzkie wynosi średnio 20µPa (rysunek na slajdzie). Próg bólu jest to wartość ciśnienia akustycznego, przy której ucho odczuwa wrażenie bólu. Jest ono prawie niezależne od częstotliwości i wynosi 140dB dla dźwięków sinusoidalnych oraz 120dB dla szumów. Wrażenie bólu wywołane jest reakcją mięśni bębenka i kosteczki ucha środkowego na impulsy wysokiego ciśnienia akustycznego. Reakcja ta ma na celu ochronę aparatu słuchowego przed ewentualnymi uszkodzeniami. informatyka +

Zakres słyszalności informatyka + Wrażenia głośności zależą od czasu trwania dźwięku. Efekt czasowego sumowania głośności dla krótkich czasów trwania. Powyżej 200ms nie występuje. Dla czasów od ok. 1s do ok. 3 min dla dźwięków o niskim poziomie lub wysokiej częstotliwości głośność maleje ze wzrostem czasu trwania – adaptacja głośności. Efekt sumowania głośności : powiększenie szerokości pasma częstotliwościowego szumu białego powoduje wzrost głośności. Głośność szumu (i dźwięków złożonych) jest wyższa niż tonów (sinusoidalnych) o takim samy ciśnieniu akustycznym. Na wrażenie głośności dźwięku wpływa wiele dodatkowych czynników. Po pierwsze wrażenia głośności zależą od czasu trwania dźwięku. Dla krótkich czasów trwania dźwięków występuje efekt czasowego sumowania głośności. Natomiast dla czasów od ok. 1s do ok. 3min dla dźwięków o niskim poziomie lub wysokiej częstotliwości głośność maleje ze wzrostem czasu trwania. Jest to efektem adaptacji głośności. W wyniku efektu sumowania głośności powiększenie szerokości pasma częstotliwościowego szumu białego powoduje wzrost głośności. Głośność szumu (i dźwięków złożonych) jest wyższa niż tonów (sinusoidalnych) o takim samym natężeniu dźwięku. Okazuje się, że człowiek nie wszystkie dźwięki o tym samym poziomie głośności słyszy jednakowo dobrze. Dźwięki bardzo niskie i bardzo wysokie są słyszane słabo, za to tony o częstotliwościach od 1KHz do 5KHz (mniej więcej zakres mowy ludzkiej) są słyszane wyjątkowo dobrze. Np. ton 10dB mający częstotliwość 1000Hz będzie przez większość ludzi świetnie słyszalny, ale ton 10dB o częstotliwości 25Hz chyba wszyscy "odbierzemy" jako ciszę. Uświadomienie sobie faktu, że nie wszystkie dźwięki o tej samej energii są przez ludzkie ucho rozpoznawane jako tak samo głośne, to dopiero początek problemów związanych z pojęciem głośności. Następnym problemem jest fakt, że ucho działa nieliniowo. Oznacza to, że dwa razy większe natężenie dźwięku wcale nie jest przez nas odbierane jako dwa razy głośniejszy dźwięk. Ucho dokonuje silnego spłaszczenia odczuwania głośności - dźwięk, który odczuwamy jako kilka razy głośniejszy od początkowego, ma w rzeczywistości energię dziesiątki, a nawet setki razy większą. informatyka +

Ocena jakości dźwięku informatyka + Ucho – instrument bardzo trudny do zamodelowania, czyli opisania przez wzory matematyczne. Odbiór wrażeń muzycznych – proces indywidualny. Ocena jakości – bardzo subiektywna. Układ słuchowy, tak jak wzrokowy, jest instrumentem nieliniowym, trudnym do zamodelowania, a odbierane przez niego dźwięki są mocno subiektywnie interpretowane. Wpływ na sklasyfikowanie odbieranego dźwięku mają: wspomnienia, wiedza, doświadczenie i uszkodzenia narządu słuchowego. informatyka +

Formaty zapisu i przechowywania plików multimedialnych Kontenery multimedialne umożliwiają przechowywanie różnego rodzaju danych: dźwięku, obrazów, filmu, napisów, informacji o rozdziałach itp. w wielu formatach. Przykładami kontenerów multimedialnych są: AVI (standardowy kontener systemu Windows) Advanced Systems Format (standardowy kontener dla multimediów pakietu Windows Media – WMA oraz WMV) OGG jest bezpłatnym otwartym kontenerem dla multimediów strumieniowych wysokiej jakości MPEG-4 Part 14 (standardowy kontener AV dla MPEG-4) Pliki przechowujące materiały multimedialne często muszą umożliwić zapis i przechowywanie różnego rodzaju danych: dźwięku, obrazów, filmu, napisów, informacji o rozdziałach itp. Potrzebny jest do tego specjalny format zapisu danych, który będzie umożliwiał poprawne wyświetlenie lub synchronizację danych w celu ich jednoczesnego odtworzenia. Ogólnie taki format zapisu nazwa się kontenerem multimedialnym. Istnieją 3 typy kontenerów multimedialnych: kontenery audio, kontenery audio video, kontenery obrazkowe. Przykładami kontenerów multimedialnych są: AVI (ang. Audio Video Interleave) jest kontenerem multimedialnym stworzonym przez firmę Microsoft w roku 1992 jako część projektu Video for Windows. W kontenerze tym mogą być zawarte strumienie audiowizualne jak i dane służące do ich synchronizacji. OGG jest bezpłatnym otwartym kontenerem dla multimediów wysokiej jakości. Wyróżniamy następujące rozszerzenia plików OGG, które są związane o określonym typem danych multimedialnych: .oga - pliki zawierające muzykę, .ogv - pliki zawierające video, .ogx - pliki zawierające aplikacje, .ogg - pliki zawierające muzykę w formacie Vorbis. MPEG-4 wprowadzony pod koniec roku 1998, jest oznaczeniem grupy standardów kodowania audio i wideo wraz z pokrewnymi technologiami opracowanej przez grupę MPEG (ang. Moving Picture Experts Group). Główne zastosowania MPEG-4 to: media strumieniowe w sieci Web (technika dostarczania informacji multimedialnej na życzenie, najpopularniejsze media strumieniowe opierają się na transmisji skompresowanych danych multimedialnych poprzez Internet), dystrybucja CD, DVD, wideokonferencje, telewizja. Oficjalne rozszerzenie pliku to .mp4. MPEG-4 może przechowywać zarówno dane audio-video, jak i teksty lub obrazki. Może przechowywać dane zachowane praktycznie w każdym formacie. informatyka +

Kodowanie PCM informatyka + Dźwięk przechowywany w kontenerze multimedialnym musi być zapisany w jakiejś postaci cyfrowej. Jedną z najpopularniejszych metod zapisu sygnału dźwiękowego jest PCM (ang. Pulse Code Modulation). Metoda ta używana jest w telekomunikacji, w cyfrowej obróbce sygnału (np. w procesorach dźwięku), do zapisu na płytach CD (CD-Audio) i w wielu zastosowaniach przemysłowych. Metoda PCM polega na reprezentacji wartości chwilowej sygnału (próbkowaniu) w określonych (najczęściej równych) odstępach czasu, czyli z określoną częstością (tzw. częstotliwość próbkowania). informatyka +

Kodowanie PCM – kwantyzacja Wartość chwilowa sygnału jest przedstawiana za pomocą słowa kodowego, którego wartości odpowiadają wybranym przedziałom kwantyzacji sygnału wejściowego. Przydział zakresu wartości analogowej jednej wartości cyfrowej jest nazywany kwantyzacją sygnału, prowadzi on do pewnej niedokładności (błąd kwantyzacji). Ilustracja kwantyzacji przedstawiona jest na rysunku. Z konkretnego przedziału kwantyzacji q wartości analogowe z przedziału od d1 do d2 zostaną zastąpione jedną wartością zapisaną cyfrowo najbliższą liczbie d1. Liczba poziomów kwantyzacji jest zazwyczaj potęgą liczby 2 (ponieważ do zapisu próbek używane są słowa binarne) i wyraża się wzorem 2n, gdzie n to liczba bitów przeznaczona na pojedynczą próbkę. Im większa częstotliwość próbkowania i im więcej bitów słowa kodowego reprezentuje każdą próbkę, tym dokładność reprezentacji jest większa, a tak zapisany sygnał jest wierniejszy oryginałowi. Dobór częstotliwości próbkowania w taki sposób aby połowa częstotliwości próbkowania (częstotliwość Nyquista) była większa od najwyższej częstotliwości składowej sinusoidalnej występującej w sygnale dźwiękowym (analiza widmowa), pozwala na bezstratną informacyjnie zamianę sygnału ciągłego na dyskretny. Dźwięk w formacie PCM może być zapisywany z różną częstotliwością próbkowania, najczęściej jest to 8kHz (niektóre standardy telefonii), 44.1kHz (płyty CD-Audio) oraz różną rozdzielczością, najczęściej 8, 16, 20 lub 24 bity na próbkę, może reprezentować 1 kanał (dźwięk monofoniczny), 2 kanały (stereofonia dwukanałowa) lub więcej (stereofonia dookólna). Reprezentacja dźwięku próbkowana z częstotliwością 44.1kHz i w rozdzielczości 16 bitów na próbkę (65536 możliwych wartości amplitudy fali dźwiękowej na próbkę) jest uważana za bardzo wierną swemu oryginałowi, ponieważ z matematycznych wyliczeń wynika, iż pokrywa cały zakres pasma częstotliwości słyszalnych przez człowieka oraz prawie cały zakres rozpiętości dynamicznej słyszalnych dźwięków. Taki format kodowania zastosowano na płytach CD-Audio. informatyka +

Inne metody cyfrowego kodowania dźwięku Mp3 – Standard MPEG-1 – "Layer3„ Ogg Vorbis Mp4 (MPEG-4 Part14) ? AAC Usprawnienia względem starszych algorytmów kompresji dźwięku próbkowanie 8-96 kHz (MP3 16-48 kHz) do 48 kanałów (MP3 2 kanały w standardzie MPEG-1 i 5.1 w standardzie MPEG-2) skuteczniejszy i wydajniejszy lepsze przenoszenie częstotliwości ponad 16 kHz lepszy tryb kompresji sygnału stereofonicznego joint-stereo Przetworzenie pliku dźwiękowego do określonego formatu cyfrowego wymaga specjalnego programu, tzw. kodeka, w którym zaimplementowane są zaawansowane algorytmy cyfrowego przetwarzania sygnałów dźwiękowych. Poniżej krótko opisano najpopularniejsze kodeki dźwięku. W dalszej części szerzej będzie opisany sposób kodowania MP3. Ogg Vorbis jest kodekiem ogólnego zastosowania. Najlepiej sprawdza się w tworzeniu plików o dużym stopniu kompresji (od 48 do 128kbps). Uznaje się, że średnia jakość dźwięku zakodowanego w formacie Ogg Vorbis jest porównywalna do AAC i wyższa niż MP3 o tej samej przepływności (czyli szybkości transmisji danych mierzonej w bitach na jednostkę czasu). W odróżnieniu od MP3 format Ogg Vorbis nie jest opatentowany i pozostaje bezpłatny, zarówno do celów prywatnych, jak i komercyjnych. Dekodowanie plików zapisanych w tym formacie wymaga większego zapotrzebowania na moc obliczeniową procesora niż MP3 (w przenośnych odtwarzaczach szczególnie uwidacznia się to poprzez skrócenie czasu pracy). Jest kodekiem z natury typu VBR (czyli dźwięk jest kodowany ze zmienną w czasie szybkością przepływu danych).  MPEG-4 Part 14 jest stworzony w oparciu o format kontenera Apple QuickTime i jest właściwie identyczny z formatem MOV, ale wspiera wszystkie właściwości standardu MPEG. Pliki z zakodowanym dźwiękiem mają często rozszerzenie .mp4, nie istnieje natomiast coś takiego jak format kompresji dźwięku MP4. AAC (ang. Advanced Audio Coding) to z kolei algorytm stratnej kompresji danych dźwiękowych, którego specyfikacja została opublikowana w roku 1997. Format AAC zaprojektowany został jako następca MP3, oferujący lepszą jakość dźwięku przy podobnym rozmiarze danych. Kompresja AAC jest modularna i oferuje w standardowo cztery profile: Low Complexity (LC) - najprostszy, najszerzej stosowany i odtwarzany przez wszystkie odtwarzacze obsługujące format AAC, Main Profile (MAIN) - rozszerzenie LC, Sample-Rate Scalable (SRS) lub Scalable Sample Rate (AAC-SSR) - zakres częstotliwości dzielony jest na cztery kompresowane niezależnie pasma, jakość jest przez to nieco niższa niż pozostałych profili, Long Term Prediction (LTP) - rozszerzenie MAIN wymagające mniejszej ilości obliczeń. Usprawnienia AAC w stosunku do poprzednich algorytmów kompresji dźwięku próbkowanie 8-96 kHz (MP3 16-48 kHz), do 48 kanałów (MP3 - 2 kanały w standardzie MPEG-1 i 5.1 w standardzie MPEG-2), skuteczniejszy i wydajniejszy, lepsze przenoszenie częstotliwości ponad 16 kHz , lepszy tryb kompresji sygnału stereofonicznego joint-stereo. informatyka +

Psychoakustyka informatyka + Ludzki mózg pełni rolę filtru, który uwypukla informacje ważniejsze i odrzuca informacje nadmiarowe. Dźwięk zapisany w formie nieskompresowanej, na przykład na CD, zawiera więcej informacji niż jest w stanie przetworzyć ludzki mózg. Słuch ludzki odbiera częstotliwości leżące w zakresie 20Hz – 20 kHz. Częstotliwości położone w środku pasma słyszymy lepiej niż skrajne. (Większość dorosłych ludzi nie jest w stanie usłyszeć prawie nic o częstotliwości powyżej 16 kHz.) Gdy dźwięk składa się z kilku tonów o zbliżonej częstotliwości lub, gdy jeden z tonów jest znacznie głośniejszy niż inne, niektóre tony mogą w ogóle nie zostać wychwycone przez ludzki mózg. Psychoakustyka to współczesna dziedzina wiedzy zajmująca się związkiem obiektywnych (fizycznych) cech dźwięku z jego cechami subiektywnymi, z wrażeniem jakie w mózgu słuchacza wywołują bodźce dźwiękowe. Psychoakustyka próbuje przewidzieć zachowanie się słuchu człowieka w określonych warunkach fizycznych. Modelami psychoakustycznymi nazywamy modele systemu słyszenia, które uwzględniają ograniczenia i tolerancje mechanizmów percepcji przeciętnego słuchacza, są to modele matematyczne mówiące jakie dźwięki są rozpoznawalne przez ludzkie ucho, jakie natomiast nie są. Modele psychoakustyczne są podstawą między innymi kompresji dźwięku, algorytmów oceny jakości transmisji mowy, systemów automatycznie rozpoznających mowę oraz systemów rozpoznających mówców. Wytyczne do modelowania pochodzą z pomiarów psychoakustycznych (odsłuchowych), w których słuchacze oceniają wrażenia wywołane różnymi sygnałami testowymi prezentowanymi w określonym kontekście (np. czy słyszą ton sinusoidalny prezentowany na tle szumu). Model przetwarza sygnał w taki sposób, aby jego wyjście stanowiło predykcję subiektywnych ocen słuchaczy. Najprostszym faktem psychoakustycznym jest różna czułość ludzkiego ucha na dźwięki o różnych częstotliwościach (niektórych częstotliwości np. bardzo wysokich lub bardzo niskich nie słyszymy w ogóle). Modele psychoakustyczne przewidują zwykle zakres słyszalności od 20 Hz-20 kHz (dlatego właśnie większość współczesnych odtwarzaczy muzyki zapisanej cyfrowo ma takie pasmo przenoszenia) i maksymalną czułość w zakresie od 2 kHz do 4 kHz. informatyka +

Maskowanie dźwięków informatyka + Maskowanie polega na przysłanianiu sygnałów słabszych sąsiadujących z sygnałami znacznie głośniejszymi, które je zagłuszają Sygnałowi, który będzie lepiej słyszalny dla człowieka, można przypisać większą ilość bitów w procesie kompresji, a sygnał, który jest trudny do wychwycenia, może być kompresowany z użyciem mniejszej liczby bitów lub pominięty Rozróżniamy 2 rodzaje maskowania: maskowanie równoczesne maskowanie czasowe Innym szeroko stosowanym faktem psychoakustycznym jest maskowanie dźwięków. Najogólniej maskowanie polega na przysłanianiu sygnałów słabszych sąsiadujących z sygnałami znacznie głośniejszymi, które je zagłuszają. Rozróżniamy 2 rodzaje maskowania: maskowanie równoczesne, maskowanie czasowe. Maskowanie dźwięków pozwala na efektywną kompresję dźwięku. Sygnałowi, który będzie lepiej słyszalny dla człowieka, można przypisać większą ilość bitów w procesie kompresji, a sygnał, który jest trudny do wychwycenia, może być kompresowany z użyciem mniejszej liczby bitów lub pominięty. informatyka +

Maskowanie równoczesne Efekt maskowania równoczesnego polega na tym, że człowiek nie jest w stanie odróżnić dwóch dźwięków o zbliżonej częstotliwości, jeśli jeden z nich jest znacznie głośniejszy od drugiego (przypadek A). Możliwe jest to dopiero wtedy, gdy sygnały mają zupełnie różne częstotliwości (przypadek B). Najprościej mówiąc maskowanie równoczesne polega na tym, że ciche dźwięki o częstotliwościach zbliżonych do częstotliwości dźwięku głośnego nie są słyszalne. Wszystkie standardy MPEG audio (a więc również MP3) wykorzystują tę właściwość ucha ludzkiego, bazują one na usuwaniu słabszych dźwięków, które nie docierają do mózgu człowieka. informatyka +

Maskowanie czasowe informatyka + Na rysunku jest pokazany efekt maskowania czasowego, czarną linią zaznaczono próg słyszalności. Można w tym przypadku wyróżnić dwa typy maskowania: maskowanie dźwięków następujących (maskowanie pobodźcowe) - głośny dźwięk potrafi zagłuszyć cichsze dźwięki następujące zaraz po nim, maskowanie dźwięków poprzedzających (maskowanie wsteczne) - cichy dźwięk poprzedzający w krótkim czasie dźwięk głośny nie jest słyszalny. Ta własność układu słuchowego jest szczególnie ciekawa, gdyż nie da się jej wyjaśnić na gruncie adaptacji krótkoterminowej układu słuchowego. Równocześnie pokazuje ona, że układ słuchowy nosi pewne cechy układu nieprzyczynowego (tzn. skutek wywołany przez jakiś bodziec występuje przed wystąpieniem bodźca). Maskowanie czasowe polega na eliminacji składowych o mniejszym natężeniu, które mają zbliżoną częstotliwość do dźwięku o większym natężeniu i występują razem w pewnym przedziale czasu. informatyka +

Maskowanie informatyka + Zobrazowanie efektu maskowania. Na rysunku zilustrowano efekt maskowania równoczesnego i czasowego jednocześnie. Czarna linia oznacza próg słyszalności. Słabe dźwięki (kolor zielony), które są maskowane przez dźwięk silniejszy, mogą zostać podczas kompresji usunięte. Pozostanie tylko dźwięk słyszalny (kolor czerwony). Zobrazowanie efektu maskowania. Czarna linia określa próg słyszalności. Słabe dźwięki – kolor zielony – mogą zostać podczas kompresji usunięte. Pozostanie tylko dźwięk słyszalny – kolor czerwony. informatyka +

Trochę historii informatyka + Standard MPEG-1 – Layer3(MP3) został opracowany w niemieckim instytucie Fraunhofer, gdzie około 30 inżynierów pracowało nad rozwojem oraz implementacją "w czasie rzeczywistym" algorytmów przetwarzania sygnałów dla potrzeb komunikacji audiowizualnej. Prace rozpoczęto w roku 1987. Głównym celem było opracowanie zaawansowanego algorytmu kodowania sygnałów audio dla przyszłych stacji nadawczych. W roku 1991 prace nad algorytmem kodowania Layer3 zostały ukończone. Opracowany algorytm stał się najbardziej optymalnym sposobem kodowania sygnałów audio w rodzinie określanej przez międzynarodowe normy ISO-MPEG. Istnieją dwa rodzaje kompresji: – kompresja bezstratna – algorytm upakowania informacji do postaci zawierającej mniejszą liczbę bitów w taki sposób, aby informację dało się odtworzyć do postaci identycznej z oryginałem. – kompresja stratna – algorytm zmniejszania ilości bitów potrzebny do wyrażenia danej informacji. Nie ma gwarancji, że odtworzona informacja będzie identyczna z oryginałem. Dla niektórych danych algorytm kompresji stratnej może odtworzyć informację w sposób identyczny. W 1987 r. w niemieckim instytucie Fraunhofer rozpoczęto prace nad radiofonią cyfrową. Jednym z kluczowych elementów było opracowanie systemu kompresji danych umożliwiającego skuteczny zapis sygnałów dźwiękowych. Algorytmy opracowane w instytucie Fraunhofer stały się później podstawą systemu MP3. Należy zaznaczyć, że algorytm stosowany przy kompresji MP3 wykorzystuje kompresję stratną - przy odtwarzaniu, dźwięk nie odpowiada dokładnie dźwiękowi sprzed kompresji. Kompresja powoduje nawet ponad dziesięciokrotne zmniejszenie ilości miejsca na dysku w stosunku do objętości dźwięku, który kompresji nie podlegał. Jednak osoby z bardziej wrażliwym słuchem odbierają dźwięk skompresowany jako gorszy pod względem jakości. W roku 1991 prace nad algorytmem kodowania MPEG-1 - "Layer3" opracowywanym w instytucie Fraunhofer zostały ukończone. Opracowany algorytm stał się najbardziej optymalnym sposobem kodowania sygnałów audio w rodzinie określanej przez międzynarodowe normy ISO-MPEG. Używając tego algorytmu (znanego powszechnie w Internecie jako MP3, ze względu na rozszerzenie) do kodowania plików audio, jakość "prawie CD", tj. stereo, 44KHz, 16 bitów, można uzyskać przy przepływności 112 - 128kbps (stopień kompresji 11:1 - 13:1). informatyka +

Wymagana przepustowość MP3 System kompresji Stopień kompresji Wymagana przepustowość MPEG-1 Layer 1 1 : 4 390 kbit/s MPEG-1 Layer 2 1 : 8 260 kbit/s MPEG-1 Layer 3 1 : 12 130 kbit/s Wewnątrz standardu MPEG-1 możemy wyróżnić 3 poziomy kodowania dźwięku, które bazują na tym samym algorytmie kodowania, ale mają indywidualne modyfikacje. Poziom pierwszy (Layer-1) daje najniższy stopień kompresji, jednak proces kodowania jest najszybszy i najmniej złożony. Poziom trzeci natomiast umożliwia uzyskanie najwyższego stopnia kompresji przy zachowaniu tej samej jakości dźwięku, lecz proces kodowania jest znacznie bardziej złożony i czasochłonny. Poziom 3 jest tożsamy ze standardem kompresji MP3. Stosując stopień kompresji 1:12 możliwe jest uzyskanie jakości „prawie CD”. Warto również zwrócić uwagę na to, że pomimo używania tego samego algorytmu dekodery poszczególnych powłok nie są kompatybilne. Używając algorytmu MPEG-1 Layer 3 (znanego powszechnie w Internecie jako MP3, ze względu na rozszerzenie) do kodowania plików audio, jakość "prawie CD" tj. stereo, 44KHz, 16 bitów, można uzyskać przy 112 –128kbps ( stopień kompresji 11:1 – 13:1). informatyka +

Idea kompresji MP3 informatyka + Kompresja MP3 oparta jest na matematycznym modelu psychoakustycznym ludzkiego ucha. Idea kompresji MP3 polega na wyeliminowaniu z sygnału tych danych, które są dla człowieka niesłyszalne lub, które słyszymy bardzo słabo. Kompresja MP3 jest połączeniem metody kompresji stratnej z kompresją bezstratną. Etap 1 – koder eliminuje z sygnału składowe słabo słyszalne i niesłyszalne dla człowieka (kompresja stratna). Etap 2 – uzyskane dane poddawane są dodatkowej kompresji w celu eliminacji nadmiarowości (kompresja bezstratna). Algorytm operuje na dźwięku próbkowanym z jakością: 16; 22.5; 24; 32; 44.1 oraz 48 kHz. Jest optymalizowany pod wyjściową przepustowość 128kbps dla sygnału stereo, aczkolwiek dostępne są przepustowości od 32kbps do 320kbps. Algorytm kodowania MP3 może operować na 4 rodzajach dźwięku wejściowego: mono, stereo - kompresja dwóch oddzielnych strumieni, joint stereo - badane jest podobieństwo sygnałów w obu kanałach, jeśli w obu kanałach jest ten sam sygnał, to koder przełącza się do trybu mono, umożliwia to kodowanie dźwięku z większą dokładnością, dual channel - zawiera dwa niezależne kanały, jest stosowany np. przy tworzeniu kilku różnych wersji językowych dla filmu. informatyka +

Transformata kosinusowa (DCT) Dyskretna transformacja kosinusowa przekształca dane do postaci umożliwiającej zastosowanie efektywnych metod kompresji. W wyniku działania transformaty na sygnale wejściowym powstają odpowiadające mu współczynniki transformaty. Transformata kosinusowa jest odwracalna, to znaczy, że dysponując tylko współczynnikami transformaty można odtworzyć odpowiadający im sygnał bez żadnych strat. W procesie kodowania MP3 występuje kilka procesów, które wymagają dodatkowego wyjaśnienia. Należą do nich dyskretna transformacja kosinusowa, kwantyzacja, kodowanie Huffmana. Dyskretna transformacja kosinusowa (DCT) pomaga rozdzielić sygnał na części, przekształcając dane do postaci umożliwiającej zastosowanie efektywnych metod kompresji. DCT przetwarza sygnał określony w dziedzinie czasu na sygnał określony w dziedzinie częstotliwości. W wyniku działania transformaty na sygnale wejściowym powstają odpowiadające mu współczynniki transformaty. Transformata cosinusowa jest odwracalna, to znaczy, że dysponując tylko współczynnikami transformaty można odtworzyć odpowiadający im sygnał bez żadnych strat. Zaletą transformaty DCT jest to, że większość współczynników jest zwykle bliska zeru, a zatem po procesie kwantyzacji współczynniki te można pominąć, co umożliwia lepszą kompresję danych. informatyka +

Kwantyzacja informatyka + Kwantyzacja polega na przeskalowaniu współczynników DCT poprzez podzielnie ich przez właściwy współczynnik znajdujący się w tabeli kwantyzacji, a następnie zaokrągleniu wyniku do najbliższej liczby całkowitej. Proces kwantyzacji można opisać równaniem: gdzie: F(x) – współczynniki transformacji, Q(x) – tablica kwantyzacji, round(x) – funkcja zaokrąglająca x do najbliższej liczby całkowitej. Kwantyzacja jest to proces ograniczenia zbioru wartości sygnału w taki sposób, aby można go było zapisać na skończonej liczbie bitów. Polega na przypisaniu wartości analogowych do najbliższych poziomów reprezentacji, co oznacza nieodwracalną utratę informacji. Kwantyzacja polega na przeskalowaniu współczynników DCT poprzez podzielnie ich przez właściwy współczynnik znajdujący się w tabeli kwantyzacji, a następnie zaokrągleniu wyniku do najbliższej liczby całkowitej. Tablice kwantyzacji dobierane są doświadczalnie. informatyka +

Kodowanie Huffmana informatyka + Dane uzyskane w procesie kodowania percepcyjnego poddawane są drugiemu etapowi kompresji bezstratnej – kodowaniu Huffmana. Kodowanie Huffmana to system przypisywania skończonemu zbiorowi symboli, o z góry znanych częstościach występowania, kodów o zmiennej liczbie bitów. Później symbole te są zastępowane odpowiednimi bitami na wyjściu. Symbole te to najczęściej po prostu bajty, choć nie ma żadnych przeszkód żeby było nimi coś innego. Kodowanie Huffmana jest to bezstratna metoda kodowania, przedstawiona przez Davida Huffmana w roku 1952. Kodowanie Hoffmana stanowi jedną z najprostszych i łatwych w implementacji metod kompresji bezstratnej. W algorytmie jest wykorzystywany fakt, że pewne wartości danych występują częściej niż inne. Jeżeli zatem zakodujemy częściej występujące wielkości za pomocą krótszych słów kodowych, a rzadziej występujące - za pomocą dłuższych, to sumarycznie długość zakodowanych danych będzie krótsza niż przed kodowaniem. informatyka +

Kodowanie Huffmana informatyka + Dla każdego znaku utwórz drzewa złożone tylko z korzenia i ułóż w malejącym porządku ich częstości występowania. Dopóki istnieją przynajmniej dwa drzewa: z drzew t1 i t2 o najmniejszych częstościach występowania p1 i p2 utwórz drzewo zawierające w korzeniu częstość p12 = p1+p2, przypisz 0 każdej lewej, a 1 każdej prawej gałęzi drzewa. Utwórz słowo kodu dla każdego znaku przechodząc od korzenia do liścia. Przykład: Z={A,B,C,D,E,F}, P={0.35, 0.17, 0.17, 0.16, 0.10, 0.05} Algorytm konstrukcji kodu Huffmana jest bardzo prosty. Na początku wszystkie symbole występujące w wejściowym strumieniu danych są sortowane w kolejności malejącej według ich częstości występowania. Stanowią one liście drzewa binarnego. Następnie tworzy się nowe węzły poprzez łączenie dwóch symboli o najmniejszych częstościach występowania w jeden symbol o częstości będącej sumą składowych. Algorytm kończy się, gdy zostanie tylko jeden symbol. Wystarczy teraz jednoznacznie oznaczyć gałęzie drzewa (np. wszystkie lewe przez 0 a wszystkie prawe przez 1) i poczynając od korzenia drzewa można rozpocząć odczytywanie słów kodowych dla symboli umieszczonych na liściach.   Kodowanie Huffmana nie jest pozbawione wad. Spośród ważniejszych należy wymienić fakt, że z reguły częstości występowania poszczególnych symboli nie są znane przed rozpoczęciem kodowania. Ponadto metoda jest nieskuteczna, gdy wszystkie symbole występują w strumieniu źródłowym z jednakową częstością. Kolejną wadą algorytmu jest brak możliwości przewidzenia rozmiaru bufora na analizowane symbole do zakodowania. informatyka +

Etapy kodowania MP3 informatyka + Sygnał wejściowy jest dzielony na mniejsze fragmenty zwane ramkami o czasie trwania ułamka sekundy. Na podstawie sygnału kodera wyliczany jest rozkład widmowy sygnału dźwiękowego. Widmo sygnału dla każdej ramki porównywane jest z matematycznym modelem psychoakustycznym. W wyniku tego porównania koder określa, które ze składowych dźwięku jako najlepiej słyszalne muszą zostać odwzorowane najwierniej, a które można zakodować w przybliżeniu lub w ogóle pominąć. Ustalany jest optymalny przydział bitów na poszczególne częstotliwości pasma akustycznego, tak aby zapewnić możliwie najwierniejsze zakodowanie sygnału. Kompresja MP3 rozpoczyna się rozdzieleniem sygnału wejściowego na małe fragmenty trwające ułamek sekundy (zwane inaczej ramkami), oraz podział tych fragmentów według pasma na 576 części – najpierw 32 w wielofazowym banku filtrów, a następnie podpasma przekształcane są dyskretną transformatą kosinusową, która generuje 18 współczynników dla każdego podpasma. Zwiększa to szanse na usunięcie niepotrzebnych informacji, sygnał może też być lepiej kontrolowany w celu śledzenia progów maskowania. Pierwszym etapem jest kompresja percepcyjna – celem jej jest usunięcie części sygnału dźwiękowego, których ludzkie ucho nie jest w stanie wychwycić. Niewyczuwalna informacja, która jest usunięta przez kompresję percepcyjną jest nazywana nadmiarowością sygnału. Główne składniki kompresora percepcyjnego: 1. Bank filtrów 2. Model percepcyjny 3. Kwantyzacja 4. Kompresja i strumieniowanie Bank filtrów jest to zestaw urządzeń (filtrów) odpowiedzialnych za przepuszczanie lub blokowanie sygnałów o określonych częstotliwościach. Służy do rozdzielenia sygnału wejściowego na kilka części, z których każda zawiera inny zakres częstotliwości. Model percepcyjny (psychoakustyczny) człowieka - ludzki słuch nie jest w stanie zatrzymać i przetworzyć wszystkich dźwięków, które do niego docierają. W zależności od częstotliwości dźwięku zmienia się również czułość ucha ludzkiego. Niektórych częstotliwości, np. bardzo wysokich lub bardzo niskich, ludzkie ucho nie słyszy w ogóle. Modele psychoakustyczne mają zwykle zakres słyszalności 20 Hz – 20 kHz i maksymalną czułość 2 kHz do 4 kHz. Poza pomijaniem częstotliwości niesłyszalnym dla ludzkiego ucha wykorzystywane są omówione wcześniej typy maskowania dźwięków: – maskowanie sąsiednich częstotliwości (jednoczesne) – maskowanie dźwięków następujących (pobodźcowe) – maskowanie dźwięków poprzedzających (wsteczne) Model percepcyjny to główny element świadczący o jakości kompresora. informatyka +

Zobrazowanie sposobu działania banku filtrów Na początku sygnał jest filtrowany i dzielony na małe odcinki. Następnie usuwana jest ta część, która nie dociera do mózgu człowieka. Dwa “zielone” sygnały po prawej stronie znajdują się poniżej poziomu słyszalności. Można więc usunąć te sygnały (w drugim i trzecim podzakresie). Sygnał z lewej strony jest słyszalny (pierwszy podzakres), można jednak podnieść dopuszczalny poziom szumów, czyli zapisać go mniejszą liczbą bitów. Na rysunku zobrazowano ideę działania banku filtrów. Czarne linie oznaczają podział sygnału dźwiękowego na pasma częstotliwościowe 1, 2 i 3. Niebieska linia wyznacza poziom progu słyszalności wyliczony na podstawie modelu psuchoakustycznego. Dwa “zielone” sygnały po prawej stronie znajdują się poniżej poziomu słyszalności. Można więc usunąć sygnał w trzecim podzakresie. Sygnał z lewej strony jest słyszalny, można jednak podnieść dopuszczalny poziom szumów, czyli zapisać go mniejszą liczbą bitów. Jeśli kwantowany dźwięk da się utrzymać poniżej progu maskowania, to efekt kompresji powinien być nieodróżnialny od oryginalnego sygnału. informatyka +

Etapy kodowania MP3, cd. informatyka + Na podstawie zadanej przez użytkownika gęstości strumienia bitowego (ang. bitrate) koder ustala maksymalną liczbę bitów przydzielonych dla każdej ramki (liczba bitów = długość ramki * bitrate). Strumień bitów podawany jest ponownej kompresji poprzez kodowanie Huffmana. Celem tej operacji jest usunięcie nadmiarowości z danych przetworzonych w pierwszym etapie, czyli dodatkowa kompresja bezstratna. Kolejne ramki poprzedzone nagłówkami są składane w pojedynczy ciąg bitów ( strumień bitowy). Nagłówki zawierają metainformacje określające parametry poszczególnych ramek. Po procesie kwantyzacji następuje proces kompresji algorytmem Huffmana. W celu dopasowania procesu kompresji do fragmentu danych źródłowych wybierana jest najbardziej pasująca tablica kodów Huffmana z całego zestawu. W celu otrzymania lepszego dopasowania, różne tablice kodów Huffmana są wybieranie dla różnych części widma. Jest to proces usuwania nadmiarowych danych bez utraty informacji. Bazuje ono na słowie kodowym – kluczu o zmiennej długości, w której klucze krótkie przypisane są do często występujących wzorców, a długie do rzadko występujących. Algorytm rozpoczyna działanie od stworzenia histogramu (tablicy częstości występowania danych w pliku). W drugim kroku tworzy listę drzew binarnych, które w węzłach przechowują symbol i częstość jego wystąpienia. Następnie w pętli, dopóki jest jeszcze więcej niż jedno drzewo na liście usuwamy 2 drzewa, które mają w korzeniu zapisane najmniejsze zsumowane częstości i wstawiamy nowe drzewo, którego korzeń zawiera sumę częstości usuniętych drzew. Końcowym etapem procesu kompresji jest formatowanie ramek wyjściowych i zapis do strumienia wyjściowego. Niektóre pliki MP3 dodatkowo zawierają sumy kontrolne. Suma kontrolna to 16 bitowa liczba, która jest zapisywana w każdej ramce oddzielnie i służy do weryfikacji poprawności strumienia MP3. informatyka +

Na rysunku przestawiony jest schemat blokowy ilustrujący etapy kodowania MP3. Proces kwantyzacji w kompresji MP3 jest realizowany na zasadzie dwóch pętli, jedna zagnieżdżona w drugiej. Zawiera on także część procesu formowania dźwięku. Pierwsza z pętli, wewnętrzna, to pętla kontroli współczynnika kompresji. Przeprowadzany jest w niej proces kwantyzacji dla poszczególnych pasm częstotliwościowych, następnie symulowane jest kodowanie skwantowanych współczynników. Jeżeli po kodowaniu okaże się, że jest przekroczony limit przepływności, czyli plik po kompresji byłby zbyt duży, to wskaźnik przyrostu jest dopasowywany do danych i cała pętla jest powtarzana od nowa. Druga pętla, zewnętrzna, pętla kontroli zniekształceń rozpoczyna się od ustawienia indywidualnych współczynników kwantyzacji na 1, po czym obliczany jest błąd kwantyzacji. Jeśli błąd ten przekracza oszacowany przez model psychoakustyczny próg percepcji, to jest odpowiednio zmieniany współczynnik kwantyzacji i obliczenie błędu odbywa się ponownie. Gdy nie jest możliwe uzyskanie żądanej przepływności i spełnienie wymagań modelu psychoakustycznego, to dźwięk jest kodowany mimo niespełnienia wymagań. informatyka +

Strumień bitowy informatyka + Gęstość strumienia bitowego określa współczynnik kompresji sygnału algorytmem MP3. Wyznacza on liczbę bitów przypadającą na sekundę finalnego zapisu. Ustawienie odpowiedniej wartości strumienia bitowego jest kompromisem między jakością a rozmiarem pliku wynikowego. Kompresja i strumieniowanie - ostatnim etapem działania kompresora jest stworzenie strumienia danych wyjściowych poprzez sformatowanie ciągu bitów oraz dodanie nagłówków do ramek (małych fragmentów utworu). Gęstość strumienia bitowego (ang. bitrate) określa współczynnik kompresji sygnału algorytmem MP3. Wyznacza on liczbę bitów przypadającą na sekundę finalnego zapisu. Ustawienie odpowiedniej wartości strumienia bitowego jest kompromisem między jakością, a rozmiarem pliku wynikowego informatyka +

Tryby CBR i VBR informatyka + Kompresja MP3 może przebiegać: ze stałą gęstością strumienia bitowego (ang. constant bitrate), zmienną gęstością strumienia bitowego (ang. variable bitrate). Tryb CBR koduje sygnał w taki sposób, że każda jego sekunda będzie zawierała tą samą ilość bitów. Tryb VBR koduje sygnał uwzględniając jego dynamikę, dzięki czemu przydziela więcej bitów fragmentom sygnału, który zawiera dużo ważnych informacji, oraz mniej bitów dla części sygnału, które są mniej skomplikowane. Kompresja w trybie VBR wymaga podania przedziału tolerancji, w jakim może się zmieniać gęstość strumienia bitowego. tryb CBR - każda sekunda dźwięku skompresowana jest za pomocą tej samej liczby bitów, co powoduje jednak, że różne fragmenty utworu mają niejednakową jakość (spokojny fragment wykonany na instrument solo brzmi lepiej, niż "mocne uderzenie" całej orkiestry wspomaganej chórem), tryb VBR - koduje sygnał uwzględniając jego dynamikę, dzięki czemu przydziela więcej bitów fragmentom sygnału, który zawiera dużo ważnych informacji, oraz mniej bitów dla części sygnału, które są mniej złożone. Każda sekunda dźwięku skompresowana jest za pomocą odpowiednio dobranej liczby bitów, dzięki czemu cały utwór ma stałą jakość. W tym wypadku spokojny fragment wykonany na instrument solo (dający się mocniej skompresować) brzmi tak samo dobrze, co "mocne uderzenie" całej orkiestry wspomaganej chórem (wymagające mniejszego stopnia kompresji). Kompresja w trybie VBR wymaga podania przedziału tolerancji, w jakim może się zmieniać gęstość strumienia bitowego. informatyka +

Zakres przepływ-ności kbit/s Tryby CBR i VBR Przełącznik Predefiniowane Docelowo kbit/s Zakres przepływ-ności kbit/s -b 320 --preset insane 320 320 CBR -V 0 -- preset fast extreme 245 220...260 -V 1 225 200...250 -V 2 --preset fast standard 190 170...210 -V 3 175 155...195 -V 4 --preset fast medium 165 145...185 -V 5 130 110...150 -V 6 115 95...135 -V 7 100 80...120 -V 8 85 65...105 -V 9 65 45..85 Aby uniknąć pomyłki przy dobraniu odpowiedniej wartości przepływności w zależności od ilości kanałów dźwiękowych, niektóre programy kodujące materiał audio do formatu MP3 (np. Audacity) zamiast jawnie określonej przepływności używają umownej skali Q (skali jakości) odnoszącej się do jakości nagrania. Powyżej przedstawiono znaczenie poszczególnych jej wartości na skali przepływności dla 2 kanałów dźwiękowych (stereo), 16 bitowego dźwięku o próbkowaniu 44,1kHz dla popularnego kodeka Lame umożliwiającego kompresję dźwięku do formatu MP3. informatyka +

Prezentacja nagrań MP3 informatyka + plik oryginalny próbkowanie 22500Hz rozdzielczość 16 bitów kompresja MP3 przepływność 100-125Kbps, tryb VBR kompresja MP3 przepływność 32Kbps, tryb CBR kompresja MP3 przepływność 20Kbps, tryb CBR Oryginalny plik dźwiękowy spróbkowany jest z częstotliwością 22500Hz i skwantowany przetwornikiem 16 bitowym. Tryb VBR, przepływność 100-125Kbps jest często stosowany i daje zadowalającą jakość dźwięku, aczkolwiek jego degradacja jest wyczuwalna. Tryb CBR, przepływność 32Kbps i 20Kbps odpowiadają kompresji ok. 44 i 70 razy. W tym przypadku wyraźnie daje się usłyszeć brak wysokich tonów i zniekształcenia dźwięku charakterystyczne dla silnej kompresji. informatyka +

Rezerwa bitowa informatyka + Ponieważ zadana gęstość strumienia bitowego obowiązuje dla każdej ramki, w przypadku bardzo złożonych fragmentów może okazać się niewystarczająca i koder nie będzie w stanie zapewnić żądanej jakości zapisu w ramach przydzielonej liczby bitów. Aby zapobiec temu zjawisku standard MP3 zapewnia możliwość skorzystania z dodatkowej rezerwy umożliwiającej zapisanie nadmiarowych danych. Rezerwa ta powstaje w miejscu pustych fragmentów ramek, w których po zakodowaniu sygnału zostało trochę miejsca. Ponieważ zadana gęstość strumienia bitowego obowiązuje dla każdej ramki, w przypadku bardzo złożonych fragmentów może okazać się niewystarczająca i program kodujący nie będzie w stanie zapewnić żądanej jakości zapisu w ramach przydzielonej liczby bitów. Aby zapobiec temu zjawisku standard MP3 zapewnia możliwość skorzystania z dodatkowej rezerwy umożliwiającej zapisanie nadmiarowych danych, tzw. rezerwy bitowej. Rezerwa ta powstaje w miejscu pustych fragmentów ramek, w których po zakodowaniu sygnału zostało trochę miejsca. informatyka +

Łączenie kanałów zapisu stereofonicznego Dzięki ludzkiej niezdolności do lokalizacji w przestrzeni źródeł dźwięku o niskich częstotliwościach standard MP3 przewiduje możliwość łączenia kanałów stereofonicznych w jeden za pomocą opcji „joint stereo”. Pliki stworzone tą metodą zajmują znacznie mniej miejsca (prawie dwukrotnie, gdyż zamiast dwóch kanałów zapisany zostaje tylko jeden). Dodatkową możliwością podczas kodowania sygnału z funkcją „joint stereo” jest stereofonia różnicowa. Polega ona na zapisaniu dwóch ścieżek – kanału środkowego będącego sumą sygnałów R i L oraz kanał boczny będący ich różnicą, który służy później do rekonstrukcji sygnału oryginalnego podczas odtwarzania pliku. Jak wiemy sygnał stereo składa się z dwóch odseparowanych od siebie kanałów. Przez znaczną część czasu kanały te jednak przenoszą jeśli nie identyczne to bardzo zbliżone do siebie informacje. Jeśli tak jest, to wtedy koder MP3 wykorzystuje tzw. algorytm joint-stereo, który powtarzające się dźwięki w obu kanałach zapisuje jako jeden. Dodatkową możliwością podczas kodowania sygnału z funkcją joint stereo jest stereofonia różnicowa. Polega ona na zapisaniu dwóch ścieżek – kanału środkowego będącego sumą sygnałów R i L oraz kanał boczny będący ich różnicą, który służy później do rekonstrukcji sygnału oryginalnego podczas odtwarzania pliku. Warto dodać, że algorytm joint-stereo jest bardzo efektywny – pozwala zredukować do 50 % ilość potrzebnych danych. Ogólnie algorytm MP3 umożliwia skompresowanie dźwięku do postaci: dual channel - kanały lewy i prawy są traktowane jako dwa niezależne kanały mono, każdy z nich otrzymuje dokładnie połowę dostępnej przepływności; w praktyce nieekonomiczny więc nieużywany, stereo - kanały lewy i prawy są traktowane jako stereo, przepływność dzielona jest pomiędzy kanały dynamicznie (np. jeżeli w lewym kanale akurat jest cisza, to prawy dostaje większą część dostępnej przepływności - daje to lepszą jakość dźwięku w prawym kanale) - używany do kompresji w wysokich przepływnościach (192kbps i więcej), joint stereo (stereofonia różnicowa) - kanały lewy i prawy są rozbijane na kanały mid/side (mid = środek - to co jest identyczne w obu kanałach i side = otoczenie - to czym różnią się oba kanały) - używany do kompresji w średnich przepływnościach (128 - 192kbps), intensity stereo - kanały lewy i prawy są zamieniane na jeden kanał mono, do którego jest dodawana informacja o uśrednionym kierunku, z którego dźwięk dochodzi (dzięki czemu podczas odsłuchu dźwięk nie dochodzi ze środka tylko z jakiegoś kierunku) - używany do kompresji w niskich przepływnościach (128kbps i mniej), mono - kanały lewy i prawy są zamieniane na jeden kanał mono, który jest potem kompresowany, dźwięk odtwarzany jest jako mono - używany do bardzo niskich przepływności (32kbps i mniej), głównie do kompresji głosu. informatyka +

Swoboda implementacji Ciekawostką jest to, że specyfikacja formatu MP3 zawarta w dokumencie ISO/IEC 11172-3 , nie określa dokładnie sposobu samego kodowania, a jedynie prezentuje ogólny zarys techniki, i określa wymagany poziom zgodności zapisu z normą. Podejście takie ma na celu promowanie różnorodności implementacji koderów i dekoderów MP3 realizowanych przez różnych producentów. Specyfikacja ISO pełni jedynie rolę bazowego zestawu reguł, określających sposób funkcjonowania standardu tak, aby za pomocą dowolnego kodera można było wygenerować plik odtwarzany przez dowolny dekoder. Ciekawostką jest to, że specyfikacja formatu MP3 zawarta w dokumencie ISO/IEC 11172-3 , nie określa dokładnie sposobu samego kodowania, a jedynie prezentuje ogólny zarys techniki, i określa wymagany poziom zgodności zapisu z normą. Innymi słowy, ustala ona kryteria, jakie musi spełniać struktura pliku, by można było go sklasyfikować jako zgodny ze standardem MP3. Podejście takie ma na celu promowanie różnorodności implementacji programów kodujących i dekodujących dźwięk w standardzie MP3 realizowanych przez różnych producentów. Specyfikacja ISO pełni jedynie rolę bazowego zestawu reguł, określających sposób funkcjonowania standardu tak, aby za pomocą dowolnego kodera można było wygenerować plik odtwarzany przez dowolny dekoder. informatyka +

Struktura pliku MP3 informatyka + Plik MP3 składa się z ogromnej liczby ramek, z których każda odpowiada ułamkowi sekundy zapisu rekonstruowanego przez dekoder. Każda ramka poprzedzona jest nagłówkiem zawierającym 32 bity dodatkowych informacji opisujących następujące po nim właściwe dane. Na początku lub końcu pliku mogą znajdować się znaczniki ID3, które zawierają dane o autorze, tytule, prawach autorskich itp. informatyka +

Składanie nagłówka ramki Pozycja Zastosowanie Długość A Ramka synchronizacji 11 B Wersja MPEG 2 C Warstwa (MPEG layer) D Zabezpieczenie 1 E Index predkości bitowej 4 F Częstotliwość próbkowania G Padding bit H Bit prywatności I Tryb kanałów J Tryb rozszerzenia K Copyright L Oryginał M Emfaza Nagłówek zaczyna się od 11 bitów synchronizacyjnych, które umożliwiają odtwarzaczowi wyszukanie pierwszej prawidłowej ramki. Po bitach synchronizacji następuje bit identyfikatora, określający wersje (MPEG-1, MPEG-2). Następne 2 bity określają warstwę ramki (Layer I, II, III). W momencie gdy bit zabezpieczenia jest ustawiony, wstawiana jest 16-bitowa suma kontrolna na początek danych audio.   Pole prędkości bitowej określa parametry bieżącej ramki. Padding bit jest wykorzystywany do precyzyjnego zapewnienia określonej prędkości bitowej dla każdej ramki. Tryb kanałów odnosi sie do statusu ramki: stereo/mono, oraz umożliwia ustalenie trybu stereo, joint stereo, podwójny kanał, oraz mono. Jeżeli został ustawiony tryb joint stereo tryb rozszerzenia określa dokładnie co dekoder powinien zrobić z daną ramką. Bit copyrigth określa czy kopiowanie danej ścieżki jest legalne czy nie (podobnie jak na płytach CD). Pole emfaza używane jest jako flaga w przypadku gdy bit uwypuklenia właściwego był ustawiony w oryginalnym nagraniu. Bit ten rzadko jest wykorzystywany. Na końcu dekoder przechodzi do sum kontrolnych, jeżeli takie istnieją, i dalej do właściwych danych dźwiękowych. informatyka +

Współczynnik kompresji Jakość kodowania MP3 Jakość dźwięku Pasmo Tryb Przepływność Współczynnik kompresji Telefon 2.5kHz Mono 8 kbps 1 :96 Fale krótkie 4.5kHz 16kbps 1:48 Radio AM 7.5kHz 32kbps 1:24 Radio FM 11kHz Stereo 56-64kbps 1:24-26 „prawie”CD 15kHz 96kbsp 1:16 CD >15kHz 112-128kbps 1:12-14 Tabela podaje najczęściej stosowane jakości kodowania MP3 i główne dziedziny ich użycia. informatyka +

Zalety standardu MP3 informatyka + Duży stopień kompresji - stosując kompresję MP3 uzyskujemy plik wynikowy o rozmiarze ok.10 razy mniejszym od oryginału. Możemy sterować stopniem kompresji dostosowując go do indywidualnych potrzeb. Metoda ta pozwala uzyskać sygnał o stosunkowo dobrej jakości. Dekompresja wymaga znacznie mniej mocy obliczeniowej niż kompresja. Twórcy standardu bezpłatnie udostępnili kod źródłowy programów kodujących i dekodujących, dzięki czemu standard ten stał się niezwykle popularny. Niewątpliwie standard kodowania dźwięku MP3 ma wiele zalet. Do najważniejszych należą: duży stopień kompresji - stosując kompresję MP3 uzyskujemy plik wynikowy o rozmiarze ok.10 razy mniejszym od oryginału, możliwość sterowania stopniem kompresji i tym samym dostosowania jakości dźwięku do indywidualnych potrzeb, metoda ta umożliwia uzyskanie sygnałów o stosunkowo dobrej jakości, dekompresja wymaga znacznie mniejszej mocy obliczeniowej niż kompresja, twórcy standardu bezpłatnie udostępnili kod źródłowy programów kodujących i dekodujących, dzięki czemu standard ten stał się niezwykle popularny.   Warto jednak pamiętać, że MP3 to metoda kompresji stratnej, a tym samym uniemożliwia zrekonstruowanie sygnału oryginalnego. Ocena jakości dźwięku odtworzonego z pliku MP3 jest bardzo indywidualnym doznaniem. Ponieważ algorytm opiera się na matematycznym modelu percepcji słuchowej przeciętnego człowieka, to siłą rzeczy zawsze będzie grupa ludzi, która usłyszy brakujące, wycięte dźwięki. Oczywiście bardzo duże znaczenie będą miały tu parametry dobrane przez twórcę pliku. Osoba nadzorująca proces kompresji MP3 nie ma co prawda bezpośredniego wpływu na współczynnik kompresji lub też na poziom stratności, może jednak ustalać liczbę bitów przypadających na sekundę docelowego zapisu tzw. przepływność. A to przekłada się to bezpośrednio na jakość. informatyka +

Wady standardu MP3 informatyka + Jest to metoda kompresji stratnej, co uniemożliwia zrekonstruowanie sygnału oryginalnego. Kompresja wymaga stosunkowo dużo mocy obliczeniowej. Ocena jakości dźwięku odtworzonego z pliku MP3 jest być bardzo indywidualnym doznaniem. Ponieważ algorytm opiera się na matematycznym modelu percepcji słuchowej przeciętnego człowieka to siłą rzeczy zawsze będzie grupa ludzi, która “usłyszy” brakujące wycięte dźwięki. Oczywiście bardzo duże znaczenie będą miały tu parametry dobrane przez twórcę pliku. Osoba nadzorująca proces kompresji MP3 nie ma, co prawda bezpośredniego wpływu na współczynnik kompresji lub też na poziom stratności – może jednak ustalać liczbę bitów przypadających na sekundę docelowego zapisu tzw. przepływność (bitrate). A to przekłada się to bezpośrednio na jakość. informatyka +