Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
2 TYTUŁ: Sposoby zapisu dźwięku AUTOR: Monika Majewska-Dziuba Marcin Czarnota
ANALOGOWY ZAPIS DŹWIĘKU Czym jest dźwięk? Z fizyki wiemy, że fale dźwiękowe to drgania powietrza lub innego ośrodka. Łatwiej to z pewnością zrozumiemy, jeżeli będziemy obserwować drgającą membranę głośnika, np. na koncercie lub dyskotece. Dźwięk to nic innego jak drgania, w których wychylenie wybranego fragmentu ośrodka, np. membrany głośnika, zmienia się w czasie, tzn. jest zależne od czasu – jest funkcją czasu. Jeżeli zaznaczymy na osi poziomej czas, a na osi pionowej wychylenie, to otrzymamy wykres taki jak na rysunku. 3
ANALOGOWY ZAPIS DŹWIĘKU - KANAŁY Dźwięk może być zapisywany na różnych kanałach. Dźwięk stereofoniczny zawiera dwa kanały, lewy i prawy, na których nagrany jest nieco zmieniony sygnał, tak aby stworzyć wrażenie głębi dźwięku. Współczesne urządzenia zawierają więcej kanałów, co pozwala jeszcze wierniej oddać przestrzenny charakter dźwięku. W praktyce kanał można traktować po prostu jako osobny sygnał dźwiękowy. 4
CYFROWY ZAPIS DŹWIĘKU Aby zapisać dźwięk, należy zapisać, jak zmienia się jego natężenie w czasie. W przypadku zapisu analogowego wystarczy zastosować przetwornik elektroniczny, który zmieni natężenie dźwięku na natężenie indukcji magnetycznej na taśmie i w ten sposób wprost przełoży dźwięk na parametry fizyczne nośnika. Ponieważ komputer zapisuje bity, czyli liczby, więc zapis ciągłej funkcji, jaką jest dźwięk, jest niemożliwy. Możemy jednak odczytać z pewnym krokiem Δ t wartość tej funkcji. Zapamiętamy wtedy ciąg wartości (t, I(t)), dla każdego t = t, t + Δ t, t + 2 Δ t, … Im mniejszy będzie krok Δ t, tym dokładniejsze będzie odwzorowanie ciągłej funkcji na jej nieciągłą postać w komputerze. Proces ten nazywamy próbkowaniem, a ciąg wartości (t, I(t)) próbką. Krok czasowy Δ t określa, jak często próbkujemy sygnał dźwiękowy. Zamiast podawać odstęp czasowy pomiędzy kolejnymi wartościami w próbce, można podać częstotliwość, z jaką te próbki są odczytywane. Innymi słowy, zamiast podawać, że na przykład sygnał dźwiękowy jest odczytywany co jedną setną sekundy, można powiedzieć, że jest on próbkowany 100 razy na sekundę. Z fizyki pamiętamy, że jednostką częstotliwości jest Herz (Hz), zatem próbkowanie 100 razy na sekundę to próbkowanie z częstotliwością 100 Hz. 5
CZĘSTOTLIWOŚĆ PRÓBKOWANIA Częstotliwość próbkowania to jeden z najważniejszych parametrów określających dźwięk zapisywany cyfrowo. Im wyższa częstotliwość próbkowania, tym lepsza jakość dźwięku, gdyż tym więcej informacji zapamiętywanych jest z oryginalnego sygnału dźwiękowego. Jak duża powinna być ta częstotliwość? Oczywiście nie można jej zwiększać w nieskończoność, ponieważ wówczas wielkość próbki, czyli rozmiar danych opisujących sygnał dźwiękowy musiałaby także być nieskończenie wielka. Częstotliwość próbkowania nie musi być bardzo duża. Z twierdzenia znanego z teorii przetwarzania sygnałów wiadomo, że do bezstratnego zapisu sygnału dźwiękowego wystarczy częstotliwość równa dwukrotności częstotliwości sygnału. O jaką częstotliwość zatem chodzi? 6
CZĘSTOTLIWOŚĆ PRÓBKOWANIA – cd… Dźwięk jest skomplikowanym sygnałem. W utworze muzycznym występują dźwięki o różnych częstotliwościach i różnej barwie. Należy więc rozpatrywać maksymalną część częstotliwość występującą w da- nym sygnale dźwiękowym – bo jeśli dla niej częstotliwość próbkowania będzie wystarczająca, to dla częstotliwości niższych również. Ponieważ człowiek słyszy tylko dźwięki o częstotliwościach od około 16 kHz do około 18 kHz, częstotliwość próbkowania powinna wynosić minimum 2 razy 18 kHz, czyli co najmniej 36 kHz. W praktyce, na przykład w za- pisie na płytach CD, stosuje się nieco więcej, ponieważ około 44 kHz, czyli 2 razy 22 kHz (dokładnie jest to 44,1 kHz, co odpowiada częstotliwości granicznej 22,05 kHz; dla uproszczenia będziemy dalej dalej posługiwać się zaokrągloną wartością 44 kHz). Tyle potrzeba zdaniem ekspertów, aby wiernie odtworzyć muzykę bardzo dobrej jakości. Dodatkowo większa niż graniczna częstotliwość próbkowania pozwala na ewentualne późniejsze użycie sprzętowych filtrów cyfrowych. 7
CZĘSTOTLIWOŚCI SŁYSZALNE W roku 1967 angielski zespół The Beatels dodał na zakończenie utworu A Day in Life dźwięk o bardzo wysokiej częstotliwości, przekraczającej górną granicę słyszalności człowieka. Utwór wydaje się kończyć kilkunastosekundową ciszą. Dźwięk ten jest jednak słyszalny przez psy, których uszy potrafią reagować na dźwięki o częstotliwościach nawet 50 kHz. Jeden z członków The Beatels, John Lennon, powiedział, że dźwięk ten został nagrany celowo, aby „zdenerwować twojego psa”. Oczywiście znajomość zagadnień związanych z dźwiękiem i słuchem jest ważna nie tylko w przypadku tego typu zabaw. 8
WIELKOŚCI CHARAKTERYZUJĄCE DŹWIĘK Składowa – prosty dźwięk o jednej częstotliwości, stałej w czasie. Wykresem obrazującym zależność natężenia od czasu jest w tym przypadku sinusoida. Wysokość dźwięku – częstotliwość, którą najmocniej słychać w danym sygnale dźwiękowym. Mówiąc ściślej, jest to częstotliwość, dla której występuje maksimum natężenia dźwięku w widmie tego dźwięku. Widmo dźwięku – zależność natężenia dźwięku od częstotliwości. Widmo jest zdefiniowane dla dźwięku stałego w czasie (np. flet grający stale ten sam dźwięk). Dlatego do wizualizacji utworu muzycznego stosuję się animację widma. Takie wizualizacje są dziś standartowym elementem sprzętu RTV. Barwa dźwięku – praktycznie każdy dźwięk złożony jest z wielu składowych. Ta, która ma największą moc, słyszana jest jako wysokość dźwięku. Czujemy jednak intuicyjnie, że dwa dźwięki o tej samej wysokości mogą brzmieć zupełnie odmiennie. Dźwięk o tej samej wysokości zagrany na gitarze i trąbce będzie brzmiał zupełnie odmiennie. Charakterystyczny kształt widma sygnału nosi nazwę barwy dźwięku. 9
KOMPRESJA AUDIO Kompresją audio zajmowano się co najmniej od 40 lat, a podstawy teoretyczne stworzono już w XIX wieku. Opracowano wiele algorytmów kompresji plików dźwiękowych. Algorytmy kompresji mogą być stratne lub bezstratne. Kompresja stratna obniża jakość dźwięku. Innymi słowy, jeżeli wykonamy kompresję stratną, zapiszemy tak przetworzony dźwięk do pliku, a następnie wykonamy proces odwrotny, czyli dekompresję do oryginalnej postaci, to nie uzyskamy pierwotnego dźwięku, ale dźwięk podobny, lecz gorszej jakości. Idea kompresji stratnej przypomina nieco pisanie streszczenia książki: Zapewne zdołamy na podstawie streszczenia odtworzyć opisaną historię i dzieje bohaterów, ale pewne szczegóły nam umkną. Podobnie jest z kompresją dźwięku – najważniejsze informacje są zachowane i zapamiętane, ale niektóre szczegóły mogą zaginąć. 10
KOMPRESJA STRATNA I BEZSTRATNA Znane i stosowane są również algorytmy kompresji bezstratnej. Sposób zakodowania pliku dźwiękowego jest tutaj inny: wynikowy plik ma mniejszy rozmiar, ale nie kosztem utraty części informacji. Jeśli posłużyć się ponownie przykładem streszczenia książki, to kompresję bezstratną można przyrównać do przetłumaczenia książki na inny język – taki, który wymaga mniejszej liczby słów do przekazania tej samej treści. Książka po przetłumaczeniu z powrotem na język oryginału będzie zawierała te same informacje. Przykładem kompresji stratnej jest algorytm wykorzystywany w typowym kodowaniu plików MP3 (więcej informacji o formacie MP3 znajduję się w następnym rozdziale). Kompresję bezstratną wykorzystuję natomiast algorytm FLAC ( ang. Free Lossless Audio Codec – darmowy bezstratny kodek audio), wykorzystywany di bezstratnego kodowania plików, również w formacie MP3 (ale z innym kodekiem, czyli algorytmem kompresji). 11
DLACZEGO STOSUJĘ SIĘ KOMPRESJĘ STRATNĄ? Otóż sprytnie wybierając, które informacje z oryginalnego dźwięku należy pominąć, a które zachować, można sprawić, że najważniejsze, czyli najbardziej słyszalne dźwięki zostaną zapamiętane. Pomija się natomiast dźwięki, które są słabo słyszalne, lub niesłyszane w ogóle. W szczególności chodzi o wysokie częstotliwości ( większość ludzi nie słyszy dźwięków już o częstotliwościach rzędu 15 kHz ). Ponadto współczesne metody kompresji stratnej audio wykorzystują efekt psychoakustyczny znany już od 1894 roku, czyli maskowanie tonów (ang. auditory masking). Polega on na tym, że ton o częstotliwości wysokiej może być zagłuszony odpowiednimi tonami o częstotliwoś- ciach niższych. Wykorzystując to zjawisko, można w pewnych okolicz- nościach pominąć niektóre tony, bo i tak nie będą słyszane z uwagi na obecność tonów ich zagłuszających. Oczywiście ten i inne zabiegi stosuję się po to, by rozmiar wynikowego pliku dźwiękowego był jak najmniejszy. 12
JAKOŚĆ DŹWIĘKU CYFROWEGO W przypadku pliku dźwiękowego zapisanego cyfrowo bez kompresji jego jakość zależy w zasadzie tylko od częstotliwości próbkowania. Niestety pliki takie są bardzo duże. Dlatego właśnie stosuje się różne metody kompresji plików dźwiękowych. Od wybranej metody i jej agresywności zależy jakość wynikowego pliku dźwiękowego. 13
ĆWICZENIE W przypadku dźwięku poddanego kompresji stratnej sama częstotliwość próbkowania nie wystarcza do ok- reślenia jego jakości. Ponieważ kompresja stratna polega na usunięciu części informacji, potrzebny jest dodat- kowy parametr opisujący, ile danych pozostało w pliku dźwiękowym. Wielkość tę, wyrażoną w liczbie bitów na sekundę pliku dźwiękowego, nazywamy przepływnością (ang. bitrate). 14
PRZEPŁYWNOŚĆ (BITRATE) Przepływność (bitrate) to liczba bitów na jednostkę czasu, najczęściej na sekundę (chodzi o liczbę bitów przetwarzanych w ciągu sekundy). W przypadku dźwięku przepływność wskazuje, ile bitów opisuje jedną sekundę pliku dźwiękowego. Jednostką przepływności jest bit na sekundę, oznaczany bps. Oczywiście można stosować przedrostki używane przy innych miarach, na przykład kilo [k] – kbps itd. Warto zwrócić uwagę, że 1 kbps = 1000 bps, a nie 1024 bps, jak można by sądzić poprzez analogię z kilobajtami. Zatem sprawa jest tu prostsza i bardziej intuicyjna. 15
PRZEPŁYWNOŚĆ DŹWIĘKU CD AUDIO - przykład Obliczymy dla porównania, jaka jest przepływność dźwięku wzorcowego – CD Audio. Jak wiemy, częstotliwość próbkowania to 44 kHz. Każda pojedyncza wartość próbki to 2 bajty, czyli 16 bitów. Ponieważ w celu uzyskania dźwięku stereofonicznego płyta jest nagrywana na dwóch kanałach, lewym i prawym, w każdej chwili zapisujemy 2 x 16 bitów = 32 bity. A zatem przepływność wynosi: K = 2 x 16 x = bps = 1408 kbps Jak widać, plik dźwiękowy zapisany z przepływnością równą 128 kbps będzie miał rozmiar mniejszy od nieprzetworzonego pliku audio CD w stosunku r = 128/1408 = 0,09, czyli będzie stanowił około 9% rozmiaru oryginalnego pliku. A zatem na tej samej płycie CD zmieści się nie kilkanaście, ale nawet kilkaset utworów! 16