Obróbka audio / video Podstawy cyfrowej edycji audio i video na potrzeby prostego filmu opracowanie Paweł Augustynek-Halny
Wstęp Urządzenia i narzędzia niezbędne przy obróbce audio/video: Materiał video i audio (kaseta, plik audio/video, płyta cd) Odtwarzacz (kamera, magnetowid, program do odtwarzania plików) Karta do zgrywania obrazu z kasety na dysk twardy Program do przechwytywania obrazu z kasety do pliku Program do zgrywania dźwięku z płyty cd do pliku audio Program do montażu filmowego (edytor) Program do nagrywania płyt cd/dvd Program do authoringu DVD (przygotowanie menu) Magnetowid lub kamera z opcją nagrywania przez wejście kablowe
Etapy pracy z materiałem filmowym Tuner TV, Karta graficzna VIVO Program typu ”wszystko w jednym” Kaseta analogowa Video CD Program do nagrywania płyt „Ripper” Edytor video Dysk twardy Audio CD DVD Authoring DVD Koder MPEG1 / MPEG2 Interfejs IEEE1394 Plik video Kaseta cyfrowa
Parametry obrazu Wielkość ramki: 1280x720 i 1920x1080 pikseli – HDTV 768x576 lub 720x576 pikseli – TV PAL, kaseta DV, DVD 360x288 pikseli – Internet
Parametry obrazu Format 4:3 - „normalne” TV 16:9 – obraz panoramiczny
Parametry obrazu Szybkość odtwarzania Ilość ramek na sekundę (frame per second) 15 fps – Internet 25 fps – PAL/SECAM 29,97 fps – NTSC
Dźwięk Fala akustyczna: zachodzące z odpowiednią częstością zmiany ciśnienia w ośrodku, na które reaguje organ słuchu. Częstości fal dźwiękowych słyszalnych przez człowieka zawierają się w granicach 16 Hz–20 kHz. Im częstości wyższe tym dźwięk wydaje się wyższy. Dźwięk jest ciągły
Rozdzielczość dźwięku Liczba bitów służących do zapisania zmian amplitudy fali dźwiękowej. Przykład: zamierzamy każdą wartość amplitudy sprowadzić do jednego z 8 poziomów (jak na rysunku). Zatem potrzebne są 3 bity.
Częstość próbkowania Przykład: Płynne zmiany stanu fali dźwiękowej zachodzące w czasie są opisywane przez komputer w drodze pobierania próbek dźwięku w ściśle ustalonych odstępach czasowych określonych przez częstość próbkowania. Przykład praktycznego wykorzystania Ludzkie ucho słyszy dźwięki do częstotliwości około 20 kHz. Według twierdzenia Kotielnikowa-Shannona, częstotliwość zapisu cyfrowego musi być zatem większa niż 40 kHz, aby nie dało się usłyszeć przekłamań. Stąd 44 100 próbek na sekundę (44,1 kHz), dla każdego kanału, na płycie CD-Audio przyjęto za wartość wystarczającą. Przykład: 8 próbek na sekundę – częstotliwość próbkowania 8 Hz
Standardowe wartości parametrów Rozdzielczość: 8 bitów – jak sygnał telefoniczny 16-32 bity – muzyczna płyta CD INTERNET: 8 lub 16 (MP3) Częstość próbkowania: 8000 Hz (8 kHz) – radioodbiornik tranzystorowy 44100 Hz (44,1 kHz) – muzyczna płyta CD 48000 Hz (48kHz) - DV INTERNET: 8 lub 11,025 kHz efekty, 22 kHz muzyka Kanały: 1 – mono 2 – stereo 5.1 - surround
Sposoby obróbki dźwięku Odszumianie Usuwanie z fali dźwiękowej niepotrzebnych elementów Normalizacja Obcięcie za wysokich i za niskich dźwięków (tych, których nie słychać) potem doprowadzenie do najlepszej głośności: najgłośniejszy sygnał ma mieć 100% głośności Wyrównywanie (equalizacja) Doprowadzenie do właściwej proporcji tonów wysokich i niskich (np. podbicie basów)
Rodzaje kompresji Przestrzenna kompresja w obrębie jednej klatki, pozwala na łatwy montaż Np. kodowanie transformatowe. Obraz każdej klatki dzielony jest na bloki o wielkości 8x8 punktów, a następnie dokonuje się na takim bloku operacji matematycznej nazywanej transformatą cosinusową, która informację o wszystkich 64 punktach pozwala zapisać na zaledwie kilku liczbach bez zauważalnej straty jakości. Czasowa co 1 sek. Klatka kluczowa pozostałe klatki jako różnice w stosunku do klatki kluczowej Np. kompensacja ruchu. Często w filmach występują momenty, w których na ekranie ruszają się tylko postacie, a tło pozostaje niezmienione (np. sceny rozmowy). Zamiast podawania w każdej klatce informacji o każdym pikselu, podaje się dane o pikselach, które zmieniły swoje cechy. Dla każdego makrobloku (16x16 punktów) oblicza się wektor, wskazujący na miejsce w klatce odniesienia (najczęściej jest to poprzednia klatka filmu), które jest najbardziej podobne do kodowanego makrobloku. Do odbiornika przesyła się wartość wektora i różnicę względem "podobnego" makrobloku. Ta operacja pozwala na ogromną redukcję przesyłanych danych.
Kompresja zastosowania Aby odtworzyć tak skompresowany film jest potrzebny komputer o odpowiedniej mocy obliczeniowej. Np. przy kompresji MPEG do płyty VideoCD wystarczy już Pentium 166 MHz. Do kodeka DivX uważa się, że procesor 300 MHz obciążony minimalnie przez system operacyjny jest w stanie sobie poradzić z dekompresją w czasie rzeczywistym. Rozwój techonologii informatycznej – rosnąca moc obliczeniowa i spadające koszty sprzętu komputerowego czynią tę przeszkodę coraz mniej istotną, co zaowocowało m.in. przenośnymi odtwarzaczami DVD czy możliwością odtwarzania plików wideo m.in. w standardzie H.264 na piątej generacji odtwarzaczy iPod.
Kodek - audio i video Kodek jest skrótem od "koder/dekoder", co oznacza urządzenie lub program zdolny do przekształcania strumienia danych lub sygnału. Kodeki mogą zmienić strumień danych w formę zakodowaną (często w celu transmisji, składowania lub zaszyfrowania) lub odzyskać (odkodować) strumień danych z formy zakodowanej, by umożliwić ich odtwarzanie bądź obróbkę. Kodeki są często użyte w wideokonferencjach oraz strumieniowaniu obrazu lub dźwięku. Na przykład wiele multimedialnych strumieni danych potrzebuje zawierać jednocześnie dane dźwiękowe i obraz oraz często metainformacje opisujące np. synchronizację dźwięku i obrazu. Każdy z tych trzech fragmentów strumienia danych może być opracowany przez oddzielne programy, sprzęt i procesy, lecz aby strumień danych multimedialnych był użyteczny, musi być połączony. Do tego właśnie służą kontenery multimedialne. Kodeki są często mylone z formatami danych (kontenerami multimedialnymi) używanymi do przechowywania zakodowanego dźwięku i obrazu (np. ".ogg", ".mpg", ".avi", ".mov", ".mkv" itp).
Przykłady kodeków audio FLAC LPAC Monkey's Audio Windows Media Audio Professional A/52 (Dolby Digital, AC-3) AAC Apple Lossless Encoding MP1 MP2 MP3 Windows Media Audio
Przykłady kodeków video Cinepak DivX H.264 Huffyuv Indeo MJPEG MPEG-1 MPEG-2 MPEG-4 Sorenson Windows Media Video XviD
Formaty plików audio *materiał nadobowiązkowy, dla obycia się z terminologią .WAV (lub WAVE) - format plików dźwiękowych stworzony przez Microsoft oraz IBM. Pomimo, że może może zawierać dowolny kodek audio, zazwyczaj stosuje się nieskompresowany PCM, co negatywnie wpływa na wielkość pliku. Pliki WAV stosowane są do zapisu krótkich dźwięków oraz, jeżeli rozmiar pliku nie ma znaczenia. Muzykę z płyt CD-Audio można bezstratnie zapisać w tym formacie za pomocą tak zwanych ripperów, jednak tak utworzone pliki mają bardzo duży rozmiar (około 172 kB na sekundę), toteż zwykle zwykle zapisuje się je w formatach ze stratną kompresją. *.WAV odtwarza praktycznie każdy program multimedialny
Formaty plików audio *materiał nadobowiązkowy, dla obycia się z terminologią .WMA (Windows Media Audio) - Windows Media Audio został stworzony przez firmę Mcrosoft. Użytkownicy zauważyli, że o ile WMA znakomicie radzi sobie z kompresją muzyki, to kompresja nagranej mowy pozostawia wiele do życzenia. Wprawdzie wiele z tych wad wyeliminowano lub chociaż poprawiono w najnowszej wersji kodeka „Windows Media Audio 8” ale jakościowo nadal ustępuje on MP3. Zgodnie z zapewnieniem producenta funkcja kodowania Windows Media Audio 8 dostarcza dźwięk o jakości jak z płyty CD i rozmiarze dwukrotnie mniejszym niż pliki w formacie MP3, dzięki czemu podwaja ilość miejsca przeznaczonego na przechowywanie muzyki i skraca czas pobierania muzyki cyfrowej o jakości płyt CD. Atutem tego standardu jest strumieniowa obsługa plików i łatwa integracja ze środowiskiem XML (język internetowy) *.WMA odtwarza praktycznie każdy program multimedialny
Formaty plików audio *materiał nadobowiązkowy, dla obycia się z terminologią .MP3 (MPEG-1/2 Audio Layer-3) - to popularny format stratnej kompresji dźwięku opierający się na zmodyfikowanej dyskretnej transformacie cosinusowej i używający modelu psychoakustycznego. Format został stworzony we Fraunhofer Institute. Przy tworzeniu jego pierwszej implementacji wykorzystywany był m.in. utwór Suzanne Vegi Tom's Diner w celu dostosowania kompresji do brzmienia ludzkiego głosu. Dźwięk skompresowany z przepływnością (ang. bitrate) 128 kbps daje zazwyczaj zadowalającą jakość na przeciętnym sprzęcie odsłuchowym w komputerach osobistych (128 kbps przyjmuje się jako odpowiadającą niskiej jakości odtwarzaczom CD), dźwięk skompresowany przy 192 kbps jest dla większości ludzi nieodróżnialny od oryginału. Niektórzy słuchacze w celu uzyskania większej jakości dźwięku stosują jeszcze słabszą kompresję (256 lub nawet 320 kbps). Jakość zależy również w dużym stopniu od używanego do kompresji enkodera. Pierwotnie do kompresji MP3 stosowano Constant Bit Rate (CBR), czyli do każdej ramki używano tej samej ilości bitów. Współcześnie używa się raczej Variable Bit Rate (VBR) charakteryzującego się zmienną przepływnością w wybranym przedziale podczas kodowania. *.MP3 odtwarza praktycznie każdy program multimedialny
Formaty plików video *materiał nadobowiązkowy, dla obycia się z terminologią .AVI (ang. Audio Video Interleave) to kontener danych audiowizualnych. Został wprowadzony w roku 1992 przez firmę Microsoft jako element strategii przystosowania systemu Windows do obsługi multimediów, stanowiący część technologii Video for Windows. Format AVI jest specjalną odmianą formatu RIFF. Od formatu RIFF zapożyczono sposób zapisywania danych poprzez ich podział na części. Każdy "kawałek" oznaczany jest identyfikatorem FourCC. Format AVI rozszerza tę technologię dodając dwa lub opcjonalnie trzy "podkawałki". Pierwszy z nich ("hdrl") stanowi nagłówek pliku i zawiera metadane określające plik video, takie jak rozmiar obrazu i liczbę klatek. Drugi "podkawałek" ("movi") zawiera właściwe dane audiowizualne. Trzeci opcjonalny ("idxl") gromadzi informacje o położeniu "kawałków" wewnątrz pliku AVI. Zapisywanie danych umożliwia proces zwany kodowaniem, zaś odczyt - dekodowanie. Technologia RIFF wykorzystana w formacie AVI daje możliwość kodowania danych nieskompresowanych lub poddanych kompresji. Najczęściej stosowane w nim formaty kompresji obrazu to XviD, DivX, Intel Real Time Video, Indeo, Cinepak, MJPEG, Editable MPEG, VDOWave, ClearVideo/RealVideo, QPEG, MPEG-4 i inne.
Formaty plików video *materiał nadobowiązkowy, dla obycia się z terminologią .MPG, .MPEG - Pliki MPEG spotykamy w różnych odmianach: MPG: To jest najbardziej podstawowa forma plików MPEG. Zawiera video MPEG-1 lub MPEG-2i audio MP2 (MPEG-1 warstwa 2) lub rzadziej MP1. DAT: To dokładnie ten sam format, co MPG, tylko z innym rozszerzeniem. Jest on używany na płytach Video CD. VOB: To format pliku MPEG na płytach DVD. Jest to to samo, co MPG, plus możliwość umieszczenia w nim napisów lub dźwięku nie-MPEG (AC3). Zawiera zakodowany strumień obrazu MPEG-2 i przeważnie dźwięk AC3, lecz dozwolone są także DTS, MP2 i nieskompresowane LPCM. Serie klatek tworzą niezależne grupy w plikach MPEG. To oznacza, że można ciąć/łączyć plik MPEG za pomocą zwykłych narzędzi plikowych (typu dd, cut) i pozostaje on całkowicie funkcjonalny. Jedną ważną cechą plików MPG jest to, że zawierają pole opisujące stosunek szerokości do wysokości obrazu. Na przykład pliki SVCD zawierają obraz o rozdzielczości 480x480, a w nagłówku pole to jest ustawione na 4:3, więc odtwarzane są w 640x480. W plikach AVI często brakuje tego pola, więc muszą być skalowane w trakcie kodowania.
Formaty plików video *materiał nadobowiązkowy, dla obycia się z terminologią .MOV - Pliki QuickTime/MOV. Formaty te zostały zaprojektowane przez Apple i mogą zawierać dowolny kodek, CBR lub VBR. Mają przeważnie rozszerzenie .QT lub .MOV. Warto zauważyć, że grupa MPEG-4 wybrała QuickTime jako zalecany format pliku dla MPEG-4, a ich pliki MOV mają rozszerzenie .MPG lub .MP4 (interesujące jest to, że strumienie w tych plikach to w rzeczywistości pliki MPG i AAC).
Magiczne słowo rendering Rendering (ang.), renderowanie – początkowo terminem tym określano jedynie przeliczenie danej sceny i utworzenie pliku wyjściowego w formie obrazu statycznego lub animacji w grafice 3D. Obecnie rendering to nie tylko odbicia, cienie, załamania światła, mgła, atmosfera, efekty wolumetryczne wyliczane w programach 3D, ale również procesy obliczania efektów nakładanych na obraz video, efektów audio czy obliczanie jakichkolwiek innych zmian w obrazie, dźwięku, których podgląd, odsłuch nie jest możliwy w czasie rzeczywistym, a jedynie po przeprowadzeniu tych właśnie wyliczeń. Jest to zwykle bardzo czasochłonna operacja (zależna od oprogramowania i mocy komputera) nie wymagająca, poza przygotowaniem, żadnej ingerencji ze strony człowieka. Rendering może przeprowadzić praktycznie każdy program do grafiki 3D i montażu filmowego.