Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wstęp do Multimediów Formaty plików audio i wideo Wykład 5.

Podobne prezentacje


Prezentacja na temat: "Wstęp do Multimediów Formaty plików audio i wideo Wykład 5."— Zapis prezentacji:

1 Wstęp do Multimediów Formaty plików audio i wideo Wykład 5

2 2 Audio Podstawowe parametry cyfrowej rejestracji sygnałów audio: –Częstotliwość próbkowania –Rozdzielczość bitowa zapisu –Format danych (liniowy, PCM, etc.) Wybór parametrów zapisu dźwięku jest uwarunkowany następującymi czynnikami: –Jakość sygnału –Oszczędność w wykorzystaniu pamięci –Możliwość zapisu sygnału w czasie rzeczywistym (szczególnie dotyczy to starszych systemów, o niewielkiej mocy obliczeniowej) –Kompatybilność formatu zapisu

3 3 Audio W praktyce wybór formatu cyfrowego zapisu dźwięku jest zwykle kompromisem między jakością sygnału a oszczędnością pamięci –pliki przeznaczone do przechowywania szerokopasmowego sygnału muzycznego wysokiej jakości, oraz –pliki do przechowywania sygnału mowy z ograniczeniem pasma częstotliwości i dynamiki

4 4 Audio Wraz z rozwojem techniki cyfrowego zapisu sygnałów akustycznych i stosowaniem systemów komputerowych do obróbki dźwięku, powstało wiele różnych formatów składowania danych - plików dźwiękowych Ich znaczna ilość spowodowana jest głównie różnorodnością systemów operacyjnych

5 5 Audio Ponieważ metody akwizycji i przechowywania danych dźwiękowych zostały opracowane niezależnie przez wielu producentów sprzętu i oprogramowania, stąd powstało wiele różnych formatów plików dźwiękowych Z powyższym wiąże się zagadnienie konwersji formatów plików dźwiękowych

6 6 Konwersja formatów plików dźwiękowych Przy obsłudze komputerowych systemów obróbki dźwięku niezbędna jest znajomość podstawowych formatów plików dźwiękowych, ich dostępności systemowej i przeznaczenia Znajomość tej problematyki jest szczególnie istotna przy przenoszeniu plików dźwiękowych pomiędzy systemami operacyjnymi Przenoszenie plików dźwiękowych pomiędzy systemami umożliwiają programowe konwertery formatów Programy te umożliwiają niekiedy także proste przekształcenia sygnału np. dodanie echa, odwrócenie przebiegu, decymację, zmianę amplitudy itp.

7 7 Konwersja formatów plików dźwiękowych Konwersja formatów plików dźwiękowych wymaga uwzględnienia 2 zagadnień: –Konwersja parametrów zapisu: częstotliwości próbkowania, liczby kanałów, rozdzielczości bitowej, –Konwersja typów plików (formatu zapisu danych w pliku)

8 8 Częstotliwości próbkowania Częstotliwości próbkowania stosowane w cyfrowych systemach audio: –5500 Hz (Macintosh)(=44100/8) –7333 Hz (=44100/6) –8000 Hz – standard telefoniczny do kodowania μ-law, a-law – Hz– standard NeXT, używany z kodekiem Telco –11025Hz(=22050/2) –16000 Hz standard telefoniczny G.722

9 9 Częstotliwości próbkowania c.d. – Hz – NTSC TV = /(214·2) –18900 Hz – standard CD-ROM –22050 Hz – standard Macintosh, CD/2 –22254.[54] – standard złącza monitora MacIntosha 128k –32000 Hz DAB (Digital Audio Broadcasting), NICAM (Nearly-Instantaneous Companded Audio Multiplex) – np. BBC; inne systemy TV, HDTV, R-DAT –32768 Hz(32·1024) –37800 Hz – high quality CD-ROM

10 10 Częstotliwości próbkowania c.d. –44056 Hz – częstotliwość próbkowania używana w sprzęcie profesjonalnym (kompat. z NTSC) –44100 Hz – CD audio – najpopularniejsza częstotliwość w aplikacjach profesjonalnych i domowych –48000 Hz – R-DAT –49152 Hz(48·1024) –>50000 Hz – używane niekiedy w profesjonalnych systemach cyfrowego przetwarzania sygnałów –96000 Hz – high resolution R-DAT

11 11 Dlaczego 44.1 kHz? High-quality PCM audio requires a significantly larger bandwidth than a regular FM audio signal –A 16-bit PCM signal requires an analog bandwidth of about 1–1.5 MHz –In mid 1970s, a standard analog audio recorder could not meet that requirement. The answer, at that time, was to use a video tape recorder, which is capable of this high bandwidth, to store the information Such an audio recording system included 2 machines: PCM adaptor and the video tape recorder. A PCM adaptor took the analog audio (stereo) signal as its input, and translated it into a series of binary digits, which, in turn, was modulated into a pseudo-video signal. The pseudo-video signal could be stored on any ordinary analog video tape recorder, since these were the only widely available devices with sufficient bandwidth This helps to explain the choice of sampling frequency for the CD, because the number of video lines, frame rate, and bits per line dictate the sampling frequency one can achieve if wanting to store 2 channels of audio – JAES vol. 58 no. 1/ p.76

12 12 Konwersja częstotliwości próbkowania Procedura dwuetapowa: –Nadpróbkowanie (ang. oversampling) – generowanie dodatkowych próbek –Usuwanie nadmiarowych próbek Częstotliwość nadpróbkowania powinna być NWW źródłowej i docelowej częstotliwości próbkowania

13 13 Procedura przepróbkowania

14 14 Relacje między najpopularniejszymi częstotliwościami próbkowania

15 15 Generowanie dodatkowych próbek Dodatkowe próbki generowane są za pomocą różnego typu algorytmów interpolacyjnych W zależności od wymaganej jakości sygnału oraz możliwości systemowych, stosowana jest zarówno interpolacja liniowa (proste systemy powszechnego użytku), jak i interpolacje wielomianowe wysokiego rzędu (zastosowania profesjonalne)

16 16 Usuwanie nadmiarowych próbek Usuwanie nadmiarowych próbek z cyfrowej reprezentacji sygnału (decymacja): Aby uniknąć aliasingu (nakładania widma), nadpróbkowany sygnał nie może zawierać częstotliwości > cz. Nyquista (połowa docelowej cz. próbkowania)

17 17 Zapobieganie aliasingowi Nadpróbkowany sygnał X a (t) należy poddać filtracji dolnoprzepustowej z częstotliwością odcięcia

18 18 Procedura przepróbkowania Uwaga: sygnał wyjściowy, otrzymany w wyniku nadpróbkowania, może nie zawierać żadnych próbek sygnału wejściowego, a jedynie próbki wygenerowane po nadpróbkowaniu (w wyniku interpolacji)

19 19 Sposoby kodowania PCM ADPCM Kodeki kompandorowe: –Mu-law (standard amerykańsko-japoński) –A-law (standard europejski) Kodeki źródła –Wokodery Kodeki hybrydowe kodek = koder + dekoder

20 20 PCM PCM (Pulse Code Modulation) – najpopularniejszy sposób kodowania dźwięku –Kwantyzacja wielobitowa liniowa –Stosunek sygnału do szumu w zapisie n-bitowym: SNR=~6,02n+1,76 [dB] –Zaleta: możliwość uzyskania wysokiej jakości (tzn. jakość CD) –Wada: duże rozmiary plików

21 21 PCM The British engineer, Alec Reeves (1902–1971) invented PCM in 1937 –instead of following the traditional method of representing an audio signal by using an electrical current proportional to the sound level, proposed that the electrical sound signal should be sampled and quantized at regular intervals. Then the analog value of each sample would be rounded to the nearest integer value, which, in turn, would be represented by a binary number and transmitted as unequivocal on-off pulses »JAES vol.58 no. 1/2 2010, p.73

22 22 ADPCM DPCM (Differential Pulse Code Modulation) – wykorzystanie quasi-okresowości sygnałów muzycznych –Stosowana jest predykcja wartości kolejnej próbki na podstawie wartości poprzednich próbek; DPCM.pdf DPCM.pdf ADPCM (Adaptive Differential Pulse Code Modulation) – zastosowanie predyktora adaptatywnego, tj. przystosowującego sposób predykcji do indywidualnej charakterystyki kodowanego sygnału

23 23 Kwantyzacja 1-bitowa Znacznie wyższa częstotliwość próbkowania –  modulacja (analogicznie jak DPCM, ale zapis 1- bitowy) adaptive DM – zmienny krok Delta PCM – krok kodowany jako wielobitowa PCM –modulacja   ; –filtr decymacyjny na wyjściu DSP, ograniczający częstotliwość 7_dpcm.pdfhttp://www.dip.ee.uct.ac.za/~nicolls/lectures/eee482f/0 7_dpcm.pdf

24 24 CCITT A-law: Europa, Azja, Meksyk CCITT - Comite Consultatif Internationale de Telegraphie et Telephonie –Obecnie ITU-T: Telecommunication Standardization Sector of the International Telecommunications Union A-law jest standardem kodowania i kompresji dźwięku w Windows 95 i Web phones Zaprojektowany jako standard telekomunikacji telefonicznej y/Glossary.htm s/ccittalaw.html

25 25 CCITT μ-law: USA, Kanada, Japonia Nazwy używane zamiennie: –Sun-AU file, Next sound file, mu-law, u-law Mu-law jest standardem kompresji – sposobem kodowania dźwięku opartym na częstotliwości próbkowania 8kHz Stosowane przez Sun, NeXT, Windows 95; zaprojektowany jako standard komunikacji telefonicznej Opis w CCITT (ITU) Recommendation G.711

26 26 CCITT μ-law Kodowanie oparte na kwantyzacji logarytmicznej: więcej poziomów kwantyzacji dla niższych poziomów sygnału (obserwacja statystyczna: większe prawdopodobieństwo sygnałów o mniejszym poziomie) W typowym systemie μ-law, liniowe próbki kodowane przez bitów są komprymowane do 8 bitów freiburg.de/data/tutorial/CreatingAIFC.html

27 27 Wokodery Kodek źródła tworzy model źródła dźwięku i dokonuje rekonstrukcji sygnału na podstawie tego modelu Wokoder (Voice Coder) – kodek źródła, przewidziany do transmisji sygnału mowy Używane są 2 podstawowe modele sygnału: –Dźwięczny (pobudzenie tonowe) –Bezdźwięczny (pobudzenie szumowe) Wokodery LPC – linear prediction coding –LPC-10, 10 rzędu, wieloletni standard U.S. Government –Każda ramka jest określana jako dźwięczna (wyspecyfikowany okres wysokości dźwięku) lub bezdźwięczna (szum losowy) –Dekoder syntetyzuje mowę przepuszczając sygnał pobudzenia przez filtr LP

28 28 Wokodery Zaleta: –Sygnał przekazywany jest w bardzo małym pliku Wada: –Nadaje się do kodowania jedynie określonego typu sygnałów –Nie nadaje się do kodowania np. muzyki

29 29 Kodowanie mowy LPAS – linear-prediction-based analysis-by- synthesis –Dekoder otrzymuje dane określające sygnał pobudzenia i filtr syntetyzujący. Mowa jest generowana jako odpowiedź filtru syntezy na sygnał pobudzenia –Filtr syntezy: LP, zmienny w czasie, okresowy update, wyznaczony przez analizę ramki LP Filtr działa jako filtr kształtujący, odwzorowujący sygnał o względnie płaskim widmie w sygnał z autokorelacją i obwiednią widma podobną do sygnału oryginalnego –AbS excitation coding: koder wyznacza sygnał pobudzenia dla danego segmentu (jednorazowo dla 1 segmentu), poprzez podawanie kandydatów- segmentów pobudzenia na replikę filtru syntezy. Wybierany jest ten który minimalizuje perceptualnie ważone zniekształcenia pomiędzy sygnałem oryginalnym i syntetyzowanym

30 30 Kodowanie mowy CELP algorithms – code-excited linear prediction –Forma LPAS –Zastosowanie kwantyzacji wektorowej –Zaprojektowany wcześniej zbiór wektorów pobudzenia jest przechowywany w książce kodowej. Dla każdego segmentu czasowego, koder szuka wektora którego próbki najlepiej działają jako wektor pobudzenia dla danego segmentu Np. książka kodowa z 1024 wektorami, 40-D każdy, wymaga słowa 10-b żeby wyznaczyć kolejnych 40 ramek sygnału pobudzenia –Doskonale sprawdza się w zakresie przepływności 4-16 kb/s

31 31 Kodeki hybrydowe Łączą cechy kodeków falowych i kodeków źródła Najpopularniejsze - kodeki AbS (Analysis- by-Synthesis): –najpierw sygnał dzielony jest na ramki, a następnie dla każdej ramki budowany jest model źródła –Koder sprawdza zachowanie modelu źródła przy różnych sposobach pobudzenia; po porównaniu z sygnałem źródłowym wybierany jest najodpowiedniejszy sposób pobudzenia

32 32 Konwersja sposobu kodowania Przy konwersji sposobu kodowania zwykle stosuje się rozkodowanie do formatu PCM, a następnie kodowanie do formatu docelowego –Pozwala to wykorzystać istniejące kodeki

33 33 Główne formaty plików dźwiękowych.wav (Microsoft, IBM).snd,.au (NeXT, Sun).mp3.mid (MIDI) –Inne: aiff (Audio Interchange File Format – Apple); proprietary lossless formats - MLP Lossless, DTS-HD, Apple Lossless; mp3pro; mp4; ogg (FLAC - Free Lossless Audio Codec, bezstr., freeware); freeware Monkey’s Audio, OptimFROG; vqf; qt (QuickTime audio); ra, rm, ram (RealAudio); wma; rmf; Liquid Audio; a2bmusic; koz (Chaoticom; scalable; grew out of developments in the control of chaotic systems; signal decomposed into peak-like or tonal objects, noise-like objects, transients, and modulations. Psychoacoustic models adapted to prioritize and quantize these objects, and the reconstructed signal is built up in layers from the prioritized objects ) Standardy kompresji perceptualnej: –MPEG, AC-3 (HDTV), PASC (magnetofon DCC)

34 34 Formaty kodowania audio Dla HDTV –for production (eg. linear PCM, Dolby E, or apt-X) –for transmission (Dolby Digital/Plus/Pulse, MPEG Surround) Odbiorniki –Europe - DVB-T standard does not specify which audio encoding standard should be used Options include MPEG-1 Layer 2, Dolby Digital, Dolby Digital Plus, DTS, or HE-AAC It is up to regional HD Forums to decide which is implemented in practice, and the trend in most regions seems to be strongly in the direction of Dolby Digital Plus and HEAAC with a transcoder –U.S. - ATSC standard specifies Dolby Digital –Japan - ISDB-T standard specifies MPEG AAC J. Audio Eng. Soc., Vol. 57, No. 10, 2009, p. 856

35 Kodowanie dźwięku MPEG Adaptive Transform Acoustic Coding (ATRAC) - Sony FLAC apt-X –Enhanced apt-X, apt-X Live, apt-X Lossless 35

36 36 MIDI Musical Instrument Digital Interface – system kontrolny dla syntezatorów sprzętowych i programowych Dźwięk jest generowany syntezatorem (może być z samplera) Opis formatu: –http://www.srm.com/qtma/davidsmidispec.htmlhttp://www.srm.com/qtma/davidsmidispec.html –http://www.midi.org/http://www.midi.org/ Prosty format Ciekawostka: pitch bend – dane 14-bitowe

37 37 MIDI a fala dźwiękowa MIDI jest dobrym źródłem muzyki gdy: –Ważny jest czas i miejsce na dysku mała wielkość plików MIDI –Ważna jest możliwość edycji/przetwarzania komputerowego łatwiejsza edytowalność Pliki audio: –Nagrania wokalu, muzyki akustycznej a nie elektronicznej, efektów dźwiękowych Nagrywanie próbek dźwięków

38 38 Kodowanie perceptualne dźwięku Źródło: pdf –E-AC-3 (Enhanced AC - 3), inaczej Dolby Digital Plus (DD+)

39 39 Porównanie jakości dźwięku w różnych formatach wnanie_formatow.htmhttp://www.daktik.rubikon.pl/audio_poro wnanie_formatow.htm

40 40 Cel kompresji audio Wysokiej jakości cyfrowe dane audio wymagają wiele miejsca przy przechowywaniu i szerokiego pasma przy przesyłaniu Przykład: 1 minuta nagrania CD (częstotliwość próbkowania 44.1kHz, 16 bitów na próbkę, stereo) –44100 * 2 [kanały] * 2 [B/Sa] * 60 [s] ~ 10 MB miejsca na dysku –przy transmisji: dla modemu [B] * 8 [bit/B] / (28800 bit/s * 60 s/min) ~ 49 minut na ściągnięcie 1 minuty

41 41 Cel kompresji audio Cyfrowe kodowanie sygnału audio (tu - kompresja audio) minimalizuje wymagania miejsca na dysku (lub szerokości pasma przy przesyłaniu) –Dla cyfrowego sygnału audio z CD, przepływność binarna [liczba bitów przesyłanych w jednostce czasu] wynosi kbps –Dla MPEG-2 AAC, jakość CD osiągana jest przy przepływności 96 kbps Współczesne perceptualne techniki kodowania audio, np. MPEG Layer-3, MPEG-2 AAC, wykorzystują właściwości ucha ludzkiego (percepcji dźwięku) do osiągnięcia 12-krotnej redukcji bez straty lub przy niezauważalnej stracie jakości

42 42 Cel kompresji audio Kompresja perceptualna stanowi zatem podstawę aplikacji wymagających wysokiej jakości sygnału i niskiej przepływności binarnej, np. ścieżki dźwiękowe gier na CD-ROM, przesyłanie dźwięku przez Internet, cyfrowe rozgłośnie radiowe etc Po dokonaniu kompresji stratnej nadmiarowa informacja zostaje bezpowrotnie usunięta z pliku. Odtworzone pliki różnią się od oryginałów, ale brzmią tak samo (mniej lub bardziej, zależnie od kompresji)

43 43 Kompresja audio Kompresja sygnału audio składa się z 2 części: –kodowanie - przekształcenie danych audio, np. pliku WAVE, w skomprymowany ciąg bitów –dekodowanie - konieczne do odtworzenia pliku Najwyższa efektywność kodowania osiągana jest dla algorytmów wykorzystujących redundancję sygnału (redundancy – np. ten sam ton przez 1s, irrelevancy) w oparciu o model systemu słyszenia człowieka

44 44 Kompresja audio Schemat kodowania można opisać jako „perceptual noise shaping” lub „perceptual subband/transform coding”: –Koder analizuje składniki widmowe sygnału audio za pomocą banku filtrów (transformaty) i stosuje model psychoakustyczny do estymacji ledwo postrzegalnego poziomu szumu –Na etapie kwantyzacji i kodowania, koder zapisuje dane tak, by spełnić wymagania określone w przepływności binarnej i maskowaniu Dekoder jest dość prosty – syntetyzuje sygnał audio na podstawie zakodowanych składników widmowych

45 45 Podstawy psychoakustyczne kodowania Psychoakustyka opisuje charakterystykę układu słuchowego człowieka. Współczesna technologia kodeków audio oparta jest na podstawach psychoakustycznych Czułość układu słuchowego człowieka zmienia się w dziedzinie częstotliwości –Wysoka dla częstotliwości kHz –Zmniejsza się poniżej i powyżej tych granic Czułość słuchu reprezentowana jest przez próg słyszenia – nie są postrzegane tony poniżej tego progu

46 46 Podstawy psychoakustyczne kodowania Najistotniejszym faktem psychoakustycznym jest efekt maskowania. Dla każdego tonu w sygnale audio można wyznaczyć próg maskowania. Jeśli ton leży poniżej tego progu, zostanie zamaskowany przez ton głośniejszy i nie będzie słyszalny Niesłyszalne elementy sygnału audio (irrelevant elements) mogą zostać wyeliminowane przez koder

47 47 Podstawy psychoakustyczne kodowania

48 48 Podstawy psychoakustyczne kodowania Źródło:

49 49 MPEG1-Audio Layer I, najprostszy – najlepszy dla przepływności powyżej 128 Kb/s na kanał Layer II - przepływności ok. 128 Kb/s Layer III, najbardziej złożony, ale daje najwyższą jakość, zwłaszcza dla przepływności ok. 64 Kb/s na kanał –Audio w ISDN Próbkowanie: 32, 44.1, lub 48 kHz CBR, VBR Bank filtrów: 192 albo 576 podpasm (w zależności od wymaganej rozdzielczości czasowej) kb/s –MPEG-2: od 8 kb/s Oparty na MDCT; równoległe obliczanie FFT

50 50 MPEG-audio

51 51 MPEG-audio

52 52 MPEG Audio Layer-3 Używając kodeka MPEG można uzyskać kompresję dźwięku CD 12:1 bez straty jakości Kompresja rzędu 24:1 i wyższa, zachowuje dobrą jakość dźwięku (lepszą niż zmiana częstotliwości próbkowania i rozdzielczości bitowej) Kompresja ta dokonywana jest poprzez kodowanie perceptualne, oparte na percepcji dźwięku przez ucho ludzkie

53 53 MPEG Audio – redukcja danych 4:1 - Layer 1 (odpowiada przepływności 384 kbps dla sygnału stereo), 6:1...8:1 - Layer 2 (odpowiada przepływnościom kbps dla sygnału stereo), 10:1...12:1 - Layer 3 (odpowiada przepływnościom kbps dla sygnału stereo), przy zachowaniu jakości oryginału CD

54 54 Jakość dźwięku w MP3 Maskowanie Testy odsłuchowe

55 55 Schemat MP3

56 56 Model perceptualny Model perceptualny wyznacza jakość implementacji: stosuje tylko bank filtrów lub łączy go z wyznaczaniem energii związanej z maskowaniem –Wyjście modelu perceptualnego zawiera wartości obliczone dla progów maskowania lub dopuszczalny szum dla każdej kodowanej części sygnału –Jeśli szum kwantyzacji znajdzie się poniżej progu maskowania, wynik kompresji jest nieodróżnialny od oryginału

57 57 Joint stereo coding Element ten wykorzystuje fakt, że oba kanały zawierają tę samą informację (irrelevancy, redundancy), do obniżenia przepływności Wykorzystywany, gdy wymagana jest niska przepływność binarna, a sygnał jest stereofoniczny

58 58 Kwantyzacja i kodowanie Jest to system 2 zagnieżdżonych pętli Kwantyzacja jest wykładnicza – wyższe wartości kodowane są z mniejszą dokładnością. W proces kwantyzacji wbudowany jest również noise shaping Skwantowane wartości są kodowane za pomocą kodowania Huffmana (bezstratnego – budowa drzewa od liści do korzenia) Pozostałe elementy dopracowywane są w 2 pętlach metodą analysis-by-synthesis ml

59 59 MPEG-2 AAC (Advanced Audio Coding) Kodowanie dźwięku dookólnego (5.1)

60 60 MPEG-2 AAC MPEG-2 AAC jest kontynuacją MP3 Dopuszczalne częstotliwości próbkowania kHz i dowolna liczba kanałów 1-48 Wykorzystanie kodowania perceptualnego (maskowanie): szum kwantyzacji jest rozdzielany do pasm częstotliwościowych tak, aby został zamaskowany przez sygnał, a więc był niesłyszalny Struktura kodera różna od poprzedników

61 61 MPEG-2 AAC

62 62 MPEG-2 AAC - elementy Zastosowanie MDCT (Modified DCT) TNS – Temporal Noise Shaping – kształtuje dystrybucję szumu kwantyzacji w czasie za pomocą predykcji w dziedzinie częstotliwości W szczególności głos ludzki zyskuje na zastosowaniu TNS

63 63 MPEG-2 AAC - elementy Predykcja: wykorzystanie faktu, że pewne sygnały audio dobrze nadają się do predykcji Kwantyzacja: dokładniejsza kontrola rozdzielczości kwantyzacji Bit-stream format: kodowanie z uwzględnieniem entropii dla uzyskania jak najmniejszej redundancji Zastosowanie MPEG-2 AAC: –rozgłośnie cyfrowe, MPEG-4

64 64 MPEG-4 HE-AAC v2 HE-AAC (High Efficiency AAC) version 2, także znany jako aacPlus v2 –MPEG-4 –HE-AAC encoder generates side information, including control parameters, that characterizes the energy distribution across time and frequency as well as tonal and noise components, to ensure perceptually coherent regeneration of the high band at the decoder –Połączenie 3 technologii: Advanced Audio Coding (AAC) Spectral Band Replication (SBR) – based on harmonic redundancy in the frequency domain Parametric Stereo (PS) Dla TV cyfrowej ATSC (Advanced Television Systems Committee) - nazwy: –Enhanced AAC-Plus (3GPP), Dolby Pulse (Dolby) ATSC audio – stosuje kodowanie DD (AC-3), 2 tryby: –Line mode (szerszy zakres dynamiki) –RF mode (radio frequency) –JAES vol.57 no.7/8 2009, p.607

65 65 HE-AAC, HE-AAC v2 Coding scheme: Parametric approach

66 66 MPEG Surround Kodowanie perceptualne (w bardziej wydajnej wersji HE-AAC) i transmisja 1- 2 kanałów (downmixed) oraz 3-15 kb/s dla dodania informacji przestrzennej –Rekomendowane użycie 12% przepływności dla uzyskania jakości przestrzennej takiej jak inne aspekty audio

67 67 Testy JAES 57 7/8, 2009, p.606

68 68 MPEG SAOC MPEG standard SAOC (Spatial Audio Object Coding) –object-based processing standard –coding of sound scenes comprising several audio objects by parametric coding techniques; bit rates commonly used for coding of mono or stereo sound At the decoder side, each object can be interactively rendered Applications: user-controlled music remixing and spatial teleconferencing

69 69 Metody kompresji obrazu Bezstratne (dokładne odtworzenie danych) –Probabilistyczne, np. statystyczne – budowa binarnego drzewa kodów; symbole częściej występujące umieszczane są bliżej korzenia metoda Huffmana – budowa od liści do korzenia metoda Shannona-Fano - odwrotnie –Słownikowe (Ziv, Lempel – Hajfa, koniec lat 70.) - zastąpienie powtarzających się ciągów znaków odniesieniami do ich pierwotnego wystąpienia Stratne - duży stopień upakowania kosztem utraty szczegółów

70 70 Kompresja obrazu Metody –symetryczne –asymetryczne Najbardziej efektywne metody - stratne: –Kompresja JPEG –Kompresja fraktalna

71 71 Kompresja obrazu Zdjęcie B w formacie bmp –m·n komórek danych, po jednej dla każdego piksela –Wielkość komórki jest różna w zależności od rodzaju zdjęcia –Czarno-białe  1 bit (0  biały/1  czarny) –Dwuwymiarowy zbiór w którym interesują nas tylko piksele których bit = 1 –Możemy rozpatrywać to zdjęcie jako zwarty podzbiór R 2 B w skali szarości  podzbiór R 3 –Trzeci bajt odpowiada za określenie intensywności skali szarości B - zdjęcie kolorowe  podzbiór R 5

72 72 Kompresja JPEG

73 73 Kompresja JPEG

74 74 Kompresja stratna obrazu - JPEG JPEG (Joint Photographic Experts Group) – grupa ekspertów opracowująca standardy kodowania obrazów ciągłych ISO i ITU-T; oficjalna nazwa: ISO/IEC JTC1 SC29 Working Group 1 Opisy standardu:

75 75 Kompresja JPEG Przekształcenie obrazu RGB w YCrCb: Kolory RGB skwantowane na 220 poziomach zostają zamienione na luminancję (jaskrawość) Y i chrominancję (kolorowość) CrCb, również 220 poziomów Kodowana jest 1 para wartości chrominancji na każde 2 wartości luminancji

76 76 Kompresja JPEG c.d. Zastosowanie DCT (Discrete Cosine Transform) dla bloków 8x8 pikseli (dla Y, dla U, dla V) Kwantyzacja, zależna od częstotliwości przestrzennej RLE (Run Length Encoding - kodowanie długości serii) i metoda Huffmana, w oparciu o obliczanie entropii i przewidywanie oczekiwanego wzorca danych –RLE: zamiana ciągów powtarzających się symboli oznaczeniem, że wystąpił ciąg danego symbolu + określenie jego długości JPEG wykorzystuje względną niewrażliwość ludzkiego oka na kontrasty koloru (odcienie), tj. zmiany chrominancji, w porównaniu z luminancją. Możliwa jest zmiana kroku kwantyzacji dla każdego składnika częstotliwości, tj. większy krok może reprezentować mniej znaczące częstotliwości

77 77 Kompresja JPEG c.d. Jakość: >= 2 b/pix., kompresja 8:1, jakość nieodróżnialna od oryginału 1,5 b/pix, kompresja 10,7:1, jakość znakomita 0,75 b/pix, kompresja 21,4:1, jakość b.dobra 0,5 b/pix, kompresja 32:1, jakość dobra 0,25 b/pix, kompresja 64:1, jakość średnia –Kodowanie progresywne

78 78 Kompresja JPEG Przykłady porównania obrazów oryginalnych i skomprymowanych za pomocą standardu JPEG (z lewej oryginał, z prawej – po kompresji)

79 79 Kompresja JPEG - przykłady

80 80 Kompresja JPEG - wady Efekt zblokowania pikseli Efekt zniekształcenia krawędzi

81 81 JPEG 2000 Kompresja obrazu w oparciu o analizę falkową –Zastosowania: aparaty cyfrowe, obrazy medyczne i inne –http://www.jpeg.org/jpeg2000/http://www.jpeg.org/jpeg2000/ Części: –Part 1, Core coding system (intended as royalty and license-fee free - NB NOT patent-free) –Part 2, Extensions (adds more features and sophistication to the core) –Part 3, Motion JPEG 2000 –Part 4, Conformance –Part 5, Reference software (Java and C implementations are available) –Part 6, Compound image file format (document imaging, for pre-press and fax-like applications, etc.) –Part 7 has been abandoned –Part 8, JPSEC (security aspects) –Part 9, JPIP (interactive protocols and API) –Part 10, JP3D (volumetric imaging) –Part 11, JPWL (wireless applications) –Part 12, ISO Base Media File Format (common with MPEG-4)

82 82 JPEG 2000 Part 1 definiuje podstawowy format plików, JP2 –Można w nim dołączać metadane JP2 wykorzystuje rozszerzalną architekturę, wspólną dla innych formatów plików, definiowanych w dalszych częściach standardu eg2000/jpeg2000.htmhttp://www.lkn.ei.tum.de/studium/mmprog/jp eg2000/jpeg2000.htm

83 83 JPEG 2000 Opcjonalny tiling polega na podziale obrazu na prostokąty do niezależnego kodowania

84 84 JPEG 2000

85 JPEG2000 vs JPEG

86 86 Kompresja fraktalna. Fraktale Kompresja oparta na lokalnym samopodobieństwie obrazu Fraktale: ułamkowy wymiar Hausdorffa-Besicovitcha, różny od wymiaru topologicznego –Wymiar ten przyjmuje dla fraktala wartości niewymierne, wskazując jednocześnie w jaki sposób fraktal wypełnia przestrzeń, w której jest osadzony

87 87 Przykłady fraktali: zbiór Julii

88 88 Przykłady fraktali: żuk Mandelbrota Benoit Mandelbrot – pionier fraktali

89 89 Kompresja fraktalna Z obserwacji Barnsley’a wynika, ze obrazy z rzeczywistego świata zawierają dużo powtórzeń afinicznych (złożenie przesunięcia, obrotu i przeskalowania). Oznacza to, ze przy odpowiedniej funkcji IFS duże części obrazu są podobne do mniejszych części tego samego obrazu html

90 90 Kompresja fraktalna: Podstawowe zasady Przekształcenia afiniczne: złożenie obrotu, przesunięcia i skalowania Rozpatrujemy afiniczne odwzorowanie zwężające –współczynnik skalowania < 1. R 2 : W(x,y) = (ax+by+e, cx+dy+f) Parametry a,b,c,d opisują obrót i skalowanie Parametry e i f to odległości przesunięć w kierunku x i y.

91 91 Iterated Function Systems – IFS Krzywa Kocha 3 krzywe – płatek śniegu

92 92 Przekształcenia Kocha

93 93 Kompresja fraktalna Oparta na lokalnym samopodobieństwie obrazu I etap - segmentacja obrazu i wyszukanie lokalnego samopodobieństwa. Obraz traktowany jest jako funkcja f(x,y), określająca wartość piksela Zakodowanie obrazu jako zbioru przekształceń, odwzorowujących pewien segment rysunku w jego kopię. Każde takie przekształcenie kodowane jest jako IFS (Iterated Function System), tj. iterowany układ funkcji {K, w n : n = 1,...,N}, gdzie w n : K →K - funkcje ciągłe, K - zwarta przestrzeń metryczna z metryką d, w n – zwykle afiniczne Uzyskiwany duży stopień kompresji nie powoduje efektów ubocznych charakterystycznych dla metody JPEG (zblokowanie pikseli)

94 94 Kompresja fraktalna IFS atraktor eview/ticc.html Fraktal: wymiar Hausdorffa d H różny od topologicznego

95 95 Podstawa kompresji fraktalnej Collage Theorem:

96 96 Kompresja fraktalna Obraz traktowany jest jako funkcja f(x, y) opisująca piksel Podział na „Domain Regions” (obszary samopodobne) nienakładające się Podział na „Range Regions” większe od DR Dopasowywanie - dla każdego DR algorytm wyszykuje odpowiedni RR, który, po zastosowaniu odpowiedniego przekształcenia afinicznego, będzie przypominać ten obszar The fractal image compression first partitions the original image into nonoverlapping domain regions (they can be any size or shape). Then a collection of possible range regions is defined. The range regions can overlap and need not cover the entire image, but must be larger than the domain regions, For each domain region the algorithm then searches for a suitable range region that, when applied with an appropriate affine transformation, very closely resembles the domain region Matematyczny opis w pliku FIF Kompresja niezależna od rozdzielczości zdjęcia

97 97 Dekompresja obrazu Alokacja 2 buforów –Bufor 1 – „Range Region” –Bufor 2 – „Domain Region” Podział Odwzorowania Zamiana rolami - przeznaczenie buforów jest zamieniane w czasie dekompresji Utworzenie obrazu wynikowego To decompress an image, the compressor first allocates 2 memory buffers of equal size, with arbitrary initial content. The iterations then begin, with buffer 1 the range image and buffer 2 the domain image. The domain image is partitioned into DR as specified in the FIF file. For each DR, its associated RR is located in the range image. Then the corresponding affine map is applied to the content of the RR, pulling the content toward the map's attractor. Since each of the affine maps is contractive, the RR is contracted by the transformation. This is the reason that the RR are required to be larger than the DR during compression. For the next iteration, the roles of the domain image and range image are switched. The process of mapping the RR (now in buffer 2) to their respective DR (in buffer 1) is repeated, using the prescribed affine transformations. Then the entire step is repeated again and again, with the content of buffer 1 mapped to buffer 2, then vice versa. At every step, the content is pulled ever closer to the attractor of the IFS which forms a collage of the original image. Eventually the differences between the two images become very small, and the content of the first buffer is the output decompressed image

98 98 FIC vs. JPEG Cechy JPEG –Metoda DCT - Discrete Cosine Transform –Standard –Zależny od rozdzielczości obrazu kompresowanego –Niezadowalająca jakość kompresji ostrych krawędzi Wady FIC –Długi czas kompresji –Fraktale częściej stosowane są do syntezy (obrazu, dźwięku)

99 99 Generacja krajobrazów za pomocą fraktali Fractal Wireframe

100 100 Flat-Shared Rendering

101 101 Ray-Traced Rendering

102 102 Full Rendering

103 103 Formaty plików wideo avi, ifv –AVI: Audio Video Interleave – kontener danych AV mpeg, mpg, mpe, m1v mov qt rm asf, wm, wmv, wmp, asx VDOLive Div-X

104 104 Kompresja obrazów ruchomych MPEG M-JPEG (Moving JPEG) int.com/CodecCentral/Codecs/MJPEG.html P*64 (CCITT H.261) – standardowy kodek wideotelefoniczny –Przesyłanie z przepływnością będącą wielokrotnością 64kbit/s (podstawowe połączenie telefoniczne)

105 105 Kompresja obrazów ruchomych - MPEG MPEG - Moving Pictures Expert Group jest częścią International Standards Organisation; odpowiada za cyfrową kompresję audio i wideo Standard pozwala na kompresję w stosunku od 50:1 do 200:1 video/papers/sikora/mpeg1_2/mpeg1_2.htm

106 106 Kompresja obrazów ruchomych - MPEG MPEG-1: przeznaczony do CD-I i Video-CD, pozwala na transmisję 1.5 Mbps. MPEG-2: standard dla TV cyfrowej i DVD (Digital Video Disc). Jest to zaawansowana wersja layer-1, z możliwością kodowania obrazów z przeplotem; 4 Mbps. MP3: standard kompresji audio MPEG Audio Layer 3 (MPEG-1 Part 3) MPEG-4: standard dla www i zastosowań mobilnych, przewidywany do pokonania problemów z wielością standardów syntezy audio i wideo; przewidziano takie udoskonalenia jak zastosowanie AI do rekonstrukcji obrazu MPEG-7: Multimedia Content Description Interface – standard opisu metadanych; dla różnych aplikacji MPEG-21: Multimedia Framework – użycie zasobów multimedialnych w sieci

107 MPEG Working documents –MPEG-A (Multimedia Application Formats) Part 6: Professional archival application format – new standard –MPEG-B (MPEG Systems Technologies) –MPEG-C (MPEG Video Technologies) Auxiliary Video Data Representation (StereoScopicVideo Applications) –MPEG-D (MPEG Audio Technologies) – recent standards MPEG Surround; Spatial Audio Object Coding Unified Speech and Audio Coding –Combines elements of AAC with linear prediction - estimating forthcoming samples based on those that have come before) –stereo coding uses a down-mixing mode of MPEG Surround, mode (transmits a mono down-mix with parameters that enable the interchannel differences to be reconstructed) –http://www.gel.usherbrooke.ca/gournay/documents/publications/AES126_Neu endorf.pdf –MPEG-E (MPEG Multimedia Middleware) –i inne

108 108 Techniki kompresji w MPEG Discrete Cosine Transform (DCT) Kwantyzacja Kodowanie Huffmana Kodowanie predykcyjne – obliczanie różnic między ramkami, a następnie kodowanie wyłącznie tych różnic Predykcja dwustronna – na podstawie obrazów poprzednich i następnych

109 109 Kodery grafiki i wideo

110 110 Standardy kompresji obrazu les/Miscellaneous/ImageFiles.doc

111 111 Standardy kompresji obrazu MPEG-2 – formaty próbkowania składowych luminancji i chrominancji –4:2:0 – 2:1 poziomo i pionowo (rozdzielczość składowych luminancji :chrominancji) –4:2:2 – próbkowanie 2:1 tylko poziomo –4:4:4 – bez przepróbkowania

112 112 Standardy kompresji obrazu

113 113 Standardy AV DLNA – The Digital Living Network Alliance; aims to ensure interoperability between networked devices in both home and mobile environments and is supported by over 250 manufacturers THX Connect - certification program ensuring that a portable player can communicate with a car audio system and be controlled by it (JAES 56/9 2008, p.743)

114 Dźwięk/obraz/obraz ruchomy AVS (Audio Video Standard) – standard zainicjowany przez rząd Chin; 90% patentów jest w posiadaniu chińskich korporacji –Wikipedia 114

115 115 Skalowalność strumienia danych Skalowalność strumienia danych - w zakresie jakości i złożoności, z dostosowaniem do medium wyświetlającego i możliwości transmisji MPEG-2 w postaci 3 warstw, bazowej i 2*rozszerzonej (base layer + 2*enhance layers): –Przestrzenną –SNR, czyli różna dokładność z taka samą rozdzielczością –Czasową –Dane zapisywane w warstwach, w zależności od ich ważności MPEG-4 –Skalowalność w oparciu o semantykę (Content based scalability)

116 116 Cechy kompresji stratnej obrazu Bez uwzględniania zawartości semantycznej obrazu - ciąg pikseli lub bloków pikseli stanowi ciąg jedno- lub wielo- wymiarowych sygnałów transponowanych do przestrzeni opartej na pewnej falowej bazie sygnałów np.: DCT, ewentualnie na transformacie falkowej (JPEG, H261 i MPEG-2) –Podobieństwo piksel do piksela –Niezależny od treści podział na bloki –Eliminacja redundancji przestrzennej metodami analizy sygnałów –Eliminacja redundancji czasowej techniką kompensacji ruchu bloków

117 117 Cechy kompresji stratnej obrazu Oparte na analizie semantycznej sceny - dzieli sceny na oddzielnie kodowane obiekty, opis obiektów przez lokalizację i ruch, kształt i teksturę Dostępność mechanizmów skalowalności i interakcji (MPEG-4, MPEG-7) –Podobieństwo ze względu na ocenę człowieka –Podział na segmenty odpowiadające obiektom fizycznym na scenie –Eliminacja redundancji przestrzennej przez modelowanie plam (kontur+tekstura) –Eliminacja redundancji czasowej techniką estymacji i kompensacji ruchu segmentów –Nastawienie na dopasowanie do HVS (Human Visual System)

118 118 Typy metod stosowanych do oceny jakości kompresji Subiektywne –notowanie wrażeń widzów lub słuchaczy MOS (Mean opinion score) Obiektywne –porównanie ilościowe na podstawie wyznaczonych matematycznie parametrów obrazu Metody oparte na modelach percepcji informacji przez człowieka –perceptualny model, zapewniający wierność percepcji słuchowej –modelowanie układu percepcji wzrokowej człowieka (HVS, Human Visual System)

119 119 Obiektywne metody oceny jakości kompresji PSNR (Peak Signal-to–Noise Ratio) szczytowy stosunek sygnału do szumu SNR (Signal-to-Noise Ratio) stosunek sygnału do szumu Odległość pikseli –dla obrazu monochromatycznego - różnica wartości –dla kolorowego - odległość w przestrzeni barw YCRCB lub La*b* lub układzie Munsella Dodatkowo: –Średnia różnica, Maksymalna różnica –Błąd średniokwadratowy (Mean Square Error), Szczytowy błąd średniokwadratowy (Peak Mean Square Error), Znormalizowany błąd średniokwadratowy (Normalized Mean Square Error), Laplasjanowy błąd średniokwadratowy (Laplacian Mean Square Error) –Jakość korelacji (Correlation Quality), Znormalizowana korelacja skośna (Normalized Cross-Correlation) –Zawartość strukturalna (Structural Content) –Wierność obrazu (Image Fidelity) –Ważone odległości obrazów według różnych norm, np. Normy Minkowskiego i inne, oparte na graficznych miarach jakości obrazów, liczone np. na podstawie histogramu lub wykresu Hosaka, obrazującego degeneracje jakości

120 120 Literatura WIECZORKOWSKA, A., Multimedia. Podstawy teoretyczne i zastosowania praktyczne. Wydawnictwo PJWSTK, 2008 JEFFAY K., ZHANG H.: Readings In Multimedia Computing And Networking. Elsevier, Imprint: Morgan Kauffman QUINNEL R. A. (ed.), Image Compression, part I, EDN, Jan 21, 1993, QUINNEL R. A. (ed.), Image Compression, part II, EDN, March 4, 1993, pp SZCZERBA M., Sound file format conversion/Konwersja formatów plików dźwiękowych, Zeszyt Naukowy Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej nr 10, mageFiles.doc


Pobierz ppt "Wstęp do Multimediów Formaty plików audio i wideo Wykład 5."

Podobne prezentacje


Reklamy Google