Formaty plików audio i wideo

Slides:



Advertisements
Podobne prezentacje
Wykład 6: Filtry Cyfrowe – próbkowanie sygnałów, typy i struktury f.c.
Advertisements

Wykład 5: Dyskretna Transformata Fouriera, FFT i Algorytm Goertzela
Wykład 6: Dyskretna Transformata Fouriera, FFT i Algorytm Goertzela
Metody kompresji.
Metody kompresji A-V. Podziały Pierwsze podejścia do kompresji A-V – redukcja bitów Dzisiejsze podziały: – Obraz, dźwięk – Stratna, bezstratna – Bitrate.
Anna Bączkowska Praca po kierunkiem dr M. Berndt - Schreiber
Popularne formaty grafiki
Kompresja danych.
Formaty plików Dane cyfrowe.
Multimedia, prezentacje, wideo, dokumenty elektroniczne
Skalowalny algorytm estymacji ruchu dla systemów rozproszonych
Ryszard Gubrynowicz Dwięk w multimediach Ryszard Gubrynowicz Wykład 13.
Zrównoleglanie programu sekwencyjnego
Kodowanie sygnałów audio w dziedzinie częstotliwości
ATRAC Adaptive Transform Acoustic Coding PTMT MiniDisc - 1/5 pojemności standardowego CD - 74 min dźwięku ATRAC pasmo 22 kHz (cz ęstotliwość próbkowania.
Kodery audio operujące w dziedzinie częstotliwości
Stratna kompresja dźwięku
Obróbka konwencjonalnych zdjęć RTG
Próbkowanie sygnału analogowego
Różnice pomiędzy formatem GIF a JPG
Transformata Fouriera
Rodzaje plików graficznych.
Kompresja danych.
KOMPRESJA DANYCH Marek Dyoniziak.
KOMPRESJA DANYCH DAWID FREJ. Kompresja danych Kompresja danych - polega na zmianie sposobu zapisu informacji w taki sposób, aby zmniejszyć redundancję
AUTORZY: Paulina Pluta kl. 3c Agata Łoboda kl.3c
Podstawowe pojęcia i problemy związane z przetwarzaniem plików graficznych.
Cele i rodzaje modulacji
Komputerowe metody przetwarzania obrazów cyfrowych
Typy kompresji. Kompresja plików graficznych.
Kierunek : Elektronika i Telekomunikacja
Autor: Justyna Radomska
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Częstotliwość próbkowania, aliasing
Formaty zdjęć.
Grafika komputerowa Jest to dziedzina rozwijająca się niezwykle dynamicznie, a jednocześnie wymagająca znacznej mocy obliczeniowej. Łatwo możemy to zaobserwować,
MULTIMEDIALNE CENTRUM ROZRYWKI DLA CAŁEJ RODZINY
Opracował: Paweł Staszczuk Temat: Pliki multimedialne Rozdział IX Przetwarzanie plików graficznych i multimedialnych.
Formaty Plików Wideo Kamil Łuczka.
Przygotował: Kamil Feliszewski
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Metody odszumiania sygnałów
KARTY DŹWIĘKOWE.
RAR jako format kompresji bezstratnej.. RAR został stworzony przez Rosjanina Eugene Roshala. Do kompresji danych używa odmiany kompresji LZSS. Jest wolniejszym.
Systemy operacyjne i sieci komputerowe
Kompresja wideo.
Waldemar Bartyna 1 Programowanie zaawansowane LINQ to XML.
Cyfrowe systemy pomiarowe
 Multimedia jest to ogólne określenie środków komunikacji wykorzystujących różne formy przekazu w celu dostarczenia odbiorcom rozrywki. Multimedia są.
Grafika rastrowa - parametry
Schemat układu ukrywającego znaki wodne
TEMAT : Kompresja i Archiwizacja danych Informatyka Zakres rozszerzony
Model warstwowy ISO-OSI
InformatykaZakresrozszerzony Zebrał i opracował : Maciej Belcarz Obraz i edycja filmów.
Podstawy akustyki i obróbka dźwięku
IFS, IFSP I GRA W CHAOS ZBIORY FRAKTALNE I WYBRANE SPOSOBY ICH GENEROWANIA.
GRAFIKA RASTROWA DALEJ. Podział grafiki komputerowej ze względu na sposób powstawania obrazu: GRAFIKA WEKTOROWA GRAFIKA KOMPUTEROWA GRAFIKA RASTROWA.
MARCIN WOJNOWSKI KOMPRESJA I DEKOMPRESJA PLIKÓW. KOMPRESJA Kodowanie danych w taki sposób, aby zajmowały najmniej miejsca na dysku. Najbardziej znanymi.
PTS Przykład Dany jest sygnał: Korzystając z twierdzenia o przesunięciu częstotliwościowym:
Grafika 2d - Podstawy. Kontakt Daniel Sadowski FTP: draver/GRK - wyklady.
Formaty plików audio i wideo
Formaty plików audio i wideo
Fraktale.
Montaż filmu 1/ Pliki dźwiękowe i multimedialne. Podstawowe formaty plików dźwiękowych i multimedialnych Kompresja plików dźwiękowych i multimedialnych.
Digital Radio Mondiale. Dlaczego radiofonia cyfrowa poniżej 30 MHz ? Radiofonia UKF – dobra jakość, ale mały zasięg; Radiofonia AM – gorsza jakość, ale.
Filtracja obrazów cd. Filtracja obrazów w dziedzinie częstotliwości
MODULACJE Z ROZPROSZONYM WIDMEM
Podstawy automatyki I Wykład /2016
Wstęp do Informatyki - Wykład 4
Kompresja danych.
Zapis prezentacji:

Formaty plików audio i wideo Wstęp do Multimediów Wykład 5 Formaty plików audio i wideo

Audio Podstawowe parametry cyfrowej rejestracji sygnałów audio: Częstotliwość próbkowania Rozdzielczość bitowa zapisu Format danych (liniowy, PCM, etc.) Wybór parametrów zapisu dźwięku jest uwarunkowany następującymi czynnikami: Jakość sygnału Oszczędność w wykorzystaniu pamięci Możliwość zapisu sygnału w czasie rzeczywistym (szczególnie dotyczy to starszych systemów, o niewielkiej mocy obliczeniowej) Kompatybilność formatu zapisu

Audio W praktyce wybór formatu cyfrowego zapisu dźwięku jest zwykle kompromisem między jakością sygnału a oszczędnością pamięci pliki przeznaczone do przechowywania szerokopasmowego sygnału muzycznego wysokiej jakości, oraz pliki do przechowywania sygnału mowy z ograniczeniem pasma częstotliwości i dynamiki

Audio Wraz z rozwojem techniki cyfrowego zapisu sygnałów akustycznych i stosowaniem systemów komputerowych do obróbki dźwięku, powstało wiele różnych formatów składowania danych - plików dźwiękowych Ich znaczna ilość spowodowana jest głównie różnorodnością systemów operacyjnych

Audio Ponieważ metody akwizycji i przechowywania danych dźwiękowych zostały opracowane niezależnie przez wielu producentów sprzętu i oprogramowania, stąd powstało wiele różnych formatów plików dźwiękowych Z powyższym wiąże się zagadnienie konwersji formatów plików dźwiękowych

Konwersja formatów plików dźwiękowych Przy obsłudze komputerowych systemów obróbki dźwięku niezbędna jest znajomość podstawowych formatów plików dźwiękowych, ich dostępności systemowej i przeznaczenia Znajomość tej problematyki jest szczególnie istotna przy przenoszeniu plików dźwiękowych pomiędzy systemami operacyjnymi Przenoszenie plików dźwiękowych pomiędzy systemami umożliwiają programowe konwertery formatów Programy te umożliwiają niekiedy także proste przekształcenia sygnału np. dodanie echa, odwrócenie przebiegu, decymację, zmianę amplitudy itp.

Konwersja formatów plików dźwiękowych Konwersja formatów plików dźwiękowych wymaga uwzględnienia 2 zagadnień: Konwersja parametrów zapisu: częstotliwości próbkowania, liczby kanałów, rozdzielczości bitowej, Konwersja typów plików (formatu zapisu danych w pliku)

Częstotliwości próbkowania Częstotliwości próbkowania stosowane w cyfrowych systemach audio: 5500 Hz (Macintosh) (=44100/8) 7333 Hz (=44100/6) 8000 Hz – standard telefoniczny do kodowania μ-law, a-law 8012.8210513 Hz– standard NeXT, używany z kodekiem Telco 11025 Hz (=22050/2) 16000 Hz standard telefoniczny G.722

Częstotliwości próbkowania c.d. 16726.8 Hz – NTSC TV = 7159090.5/(214·2) 18900 Hz – standard CD-ROM 22050 Hz – standard Macintosh, CD/2 22254.[54] – standard złącza monitora MacIntosha 128k 32000 Hz DAB (Digital Audio Broadcasting), NICAM (Nearly-Instantaneous Companded Audio Multiplex) – np. BBC; inne systemy TV, HDTV, R-DAT 32768 Hz (32·1024) 37800 Hz – high quality CD-ROM

Częstotliwości próbkowania c.d. 44056 Hz – częstotliwość próbkowania używana w sprzęcie profesjonalnym (kompat. z NTSC) 44100 Hz – CD audio – najpopularniejsza częstotliwość w aplikacjach profesjonalnych i domowych 48000 Hz – R-DAT 49152 Hz (48·1024) >50000 Hz – używane niekiedy w profesjonalnych systemach cyfrowego przetwarzania sygnałów 96000 Hz – high resolution R-DAT

Konwersja częstotliwości próbkowania Procedura dwuetapowa: Nadpróbkowanie (ang. oversampling) – generowanie dodatkowych próbek Usuwanie nadmiarowych próbek Częstotliwość nadpróbkowania powinna być NWW źródłowej i docelowej częstotliwości próbkowania

Procedura przepróbkowania

Relacje między najpopularniejszymi częstotliwościami próbkowania

Generowanie dodatkowych próbek Dodatkowe próbki generowane są za pomocą różnego typu algorytmów interpolacyjnych W zależności od wymaganej jakości sygnału oraz możliwości systemowych, stosowana jest zarówno interpolacja liniowa (proste systemy powszechnego użytku), jak i interpolacje wielomianowe wysokiego rzędu (zastosowania profesjonalne)

Usuwanie nadmiarowych próbek Usuwanie nadmiarowych próbek z cyfrowej reprezentacji sygnału (decymacja): Aby uniknąć aliasingu (nakładania widma), nadpróbkowany sygnał nie może zawierać częstotliwości > cz. Nyquista (połowa docelowej cz. próbkowania)

Zapobieganie aliasingowi Nadpróbkowany sygnał Xa(t) należy poddać filtracji dolnoprzepustowej z częstotliwością odcięcia

Procedura przepróbkowania Uwaga: sygnał wyjściowy, otrzymany w wyniku nadpróbkowania, może nie zawierać żadnych próbek sygnału wejściowego, a jedynie próbki wygenerowane po nadpróbkowaniu (w wyniku interpolacji)

Sposoby kodowania PCM ADPCM Kodeki kompandorowe: Kodeki źródła Mu-law (standard amerykańsko-japoński) A-law (standard europejski) Kodeki źródła Wokodery Kodeki hybrydowe kodek = koder + dekoder

PCM PCM (Pulse Code Modulation) –najpopularniejszy sposób kodowania dźwięku Zaleta: możliwość uzyskania wysokiej jakości (tzn. jakość CD) Wada: duże rozmiary plików http://www.wordiq.com/definition/Modulation

ADPCM DPCM (Differential Pulse Code Modulation) – wykorzystanie quasi-okresowości sygnałów muzycznych Stosowana jest predykcja wartości kolejnej próbki na podstawie wartości poprzednich próbek; http://www.stanford.edu/class/ee398b/handouts/01-DPCM.pdf ADPCM (Adaptive Differential Pulse Code Modulation) – zastosowanie predyktora adaptatywnego, tj. przystosowującego sposób predykcji do indywidualnej charakterystyki kodowanego sygnału

CCITT A-law: Europa, Azja, Meksyk CCITT - Comite Consultatif Internationale de Telegraphie et Telephonie A-law jest standardem kodowania i kompresji dźwięku w Windows 95 i Web phones Zaprojektowany jako standard telekomunikacji telefonicznej http://oldwww.rasip.fer.hr/research/compress/glossary/Glossary.htm http://www.singapore.cnet.com/Briefs/Glossary/Terms/ccittalaw.html

CCITT μ-law: USA, Kanada, Japonia Nazwy używane zamiennie: Sun-AU file, Next sound file, mu-law, u-law Mu-law jest standardem kompresji – sposobem kodowania dźwięku opartym na częstotliwości próbkowania 8kHz Stosowane przez Sun, NeXT, Windows 95; zaprojektowany jako standard komunikacji telefonicznej Opis w CCITT (ITU) Recommendation G.711

CCITT μ-law Kodowanie oparte na kwantyzacji logarytmicznej: więcej poziomów kwantyzacji dla niższych poziomów sygnału (obserwacja statystyczna: większe prawdopodobieństwo sygnałów o mniejszym poziomie) W typowym systemie μ-law, liniowe próbki kodowane przez 14-16 bitów są komprymowane do 8 bitów http://www.sericyb.com.au/audio.html http://www.biologie.uni-freiburg.de/data/tutorial/CreatingAIFC.html

Wokodery Kodek źródła tworzy model źródła dźwięku i dokonuje rekonstrukcji sygnału na podstawie tego modelu Wokoder (Voice Coder) – kodek źródła, przewidziany do transmisji sygnału mowy Używane są 2 podstawowe modele sygnału: Dźwięczny (pobudzenie tonowe) Bezdźwięczny (pobudzenie szumowe)

Wokodery Zaleta: Wada: Sygnał przekazywany jest w bardzo małym pliku Nadaje się do kodowania jedynie określonego typu sygnałów Nie nadaje się do kodowania np. muzyki

Kodeki hybrydowe Łączą cechy kodeków falowych i kodeków źródła Najpopularniejsze - kodeki AbS (Analysis-by-Synthesis): najpierw sygnał dzielony jest na ramki, a następnie dla każdej ramki budowany jest model źródła Koder sprawdza zachowanie modelu źródła przy różnych sposobach pobudzenia; po porównaniu z sygnałem źródłowym wybierany jest najodpowiedniejszy sposób pobudzenia

Konwersja sposobu kodowania Przy konwersji sposobu kodowania zwykle stosuje się rozkodowanie do formatu PCM, a następnie kodowanie do formatu docelowego Pozwala to wykorzystać istniejące kodeki

Główne formaty plików dźwiękowych .wav (Microsoft, IBM) .snd, .au (NeXT, Sun) .mp3 .mid (MIDI) http://www.uwm.edu/~frankkl/540430/sound.htm; http://skaiste.elekta.lt/Books/O'Reilly/Bookshelfs/books/webdesign/audio/index.htm http://www.wotsit.org/; http://www.teamcombooks.com/mp3handbook/MP3_Handbook.htm Standardy kompresji perceptualnej: MPEG, AC-3 (HDTV), PASC (magnetofon DCC)

Kodowanie perceptualne dźwięku Źródło: http://212.160.118.98/~robbie/W07.pdf

Cel kompresji audio Wysokiej jakości cyfrowe dane audio wymagają wiele miejsca przy przechowywaniu i szerokiego pasma przy przesyłaniu Przykład: 1 minuta nagrania CD (częstotliwość próbkowania 44.1kHz, 16 bitów na próbkę, stereo) 44100 * 2 [kanały] * 2 [B/Sa] * 60 [s] ~ 10 MB miejsca na dysku przy transmisji: dla modemu 28.8 10.000.000 [B] * 8 [bit/B] / (28800 bit/s * 60 s/min) ~ 49 minut na ściągnięcie 1 minuty

Cel kompresji audio Cyfrowe kodowanie sygnału audio (tu - kompresja audio) minimalizuje wymagania miejsca na dysku (lub szerokości pasma przy przesyłaniu) Dla cyfrowego sygnału audio z CD, przepływność binarna [liczba bitów przesyłanych w jednostce czasu] wynosi 1411.2 kbps Dla MPEG-2 AAC, jakość CD osiągana jest przy przepływności 96 kbps Współczesne perceptualne techniki kodowania audio, np. MPEG Layer-3, MPEG-2 AAC, wykorzystują właściwości ucha ludzkiego (percepcji dźwięku) do osiągnięcia 12-krotnej redukcji bez straty lub przy niezauważalnej stracie jakości

Cel kompresji audio Kompresja perceptualna stanowi zatem podstawę aplikacji wymagających wysokiej jakości sygnału i niskiej przepływności binarnej, np. ścieżki dźwiękowe gier na CD-ROM, przesyłanie dźwięku przez Internet, cyfrowe rozgłośnie radiowe etc Po dokonaniu kompresji stratnej nadmiarowa informacja zostaje bezpowrotnie usunięta z pliku. Odtworzone pliki różnią się od oryginałów, ale brzmią tak samo (mniej lub bardziej, zależnie od kompresji) http://www.iis.fhg.de/amm/techinf/basics.html

Kompresja audio Kompresja sygnału audio składa się z 2 części: kodowanie - przekształcenie danych audio, np. pliku WAVE, w skomprymowany ciąg bitów dekodowanie - konieczne do odtworzenia pliku Najwyższa efektywność kodowania osiągana jest dla algorytmów wykorzystujących redundancję sygnału (redundancy – np. ten sam ton przez 1s, irrelevancy) w oparciu o model systemu słyszenia człowieka

Kompresja audio Schemat kodowania można opisać jako „perceptual noise shaping” lub „perceptual subband/transform coding”: Koder analizuje składniki widmowe sygnału audio za pomocą banku filtrów (transformaty) i stosuje model psychoakustyczny do estymacji ledwo postrzegalnego poziomu szumu Na etapie kwantyzacji i kodowania, koder zapisuje dane tak, by spełnić wymagania określone w przepływności binarnej i maskowaniu Dekoder jest dość prosty – syntetyzuje sygnał audio na podstawie zakodowanych składników widmowych

Podstawy psychoakustyczne kodowania Psychoakustyka opisuje charakterystykę układu słuchowego człowieka. Współczesna technologia kodeków audio oparta jest na podstawach psychoakustycznych Czułość układu słuchowego człowieka zmienia się w dziedzinie częstotliwości Wysoka dla częstotliwości 2.5 - 5 kHz Zmniejsza się poniżej i powyżej tych granic Czułość słuchu reprezentowana jest przez próg słyszenia – nie są postrzegane tony poniżej tego progu

Podstawy psychoakustyczne kodowania Najistotniejszym faktem psychoakustycznym jest efekt maskowania. Dla każdego tonu w sygnale audio można wyznaczyć próg maskowania. Jeśli ton leży poniżej tego progu, zostanie zamaskowany przez ton głośniejszy i nie będzie słyszalny Niesłyszalne elementy sygnału audio (irrelevant elements) mogą zostać wyeliminowane przez koder

Podstawy psychoakustyczne kodowania

Podstawy psychoakustyczne kodowania Źródło: http://212.160.118.98/~robbie/W07.pdf

MPEG Audio Layer-3 Używając kodeka MPEG można uzyskać kompresję dźwięku CD 12:1 bez straty jakości Kompresja rzędu 24:1 i wyższa, zachowuje dobrą jakość dźwięku (lepszą niż zmiana częstotliwości próbkowania i rozdzielczości bitowej) Kompresja ta dokonywana jest poprzez kodowanie perceptualne, oparte na percepcji dźwięku przez ucho ludzkie

MPEG Audio – redukcja danych 4:1 - Layer 1 (odpowiada przepływności 384 kbps dla sygnału stereo), 6:1...8:1 - Layer 2 (odpowiada przepływnościom 256..192 kbps dla sygnału stereo), 10:1...12:1 - Layer 3 (odpowiada przepływnościom 128..112 kbps dla sygnału stereo), przy zachowaniu jakości oryginału CD

Jakość dźwięku w MP3 Maskowanie Testy odsłuchowe

  Schemat MP3

Model perceptualny Model perceptualny wyznacza jakość implementacji: stosuje tylko bank filtrów lub łączy go z wyznaczaniem energii związanej z maskowaniem Wyjście modelu perceptualnego zawiera wartości obliczone dla progów maskowania lub dopuszczalny szum dla każdej kodowanej części sygnału Jeśli szum kwantyzacji znajdzie się poniżej progu maskowania, wynik kompresji jest nieodróżnialny od oryginału

Joint stereo coding Element ten wykorzystuje fakt, że oba kanały zawierają tę samą informację (irrelevancy, redundancy), do obniżenia przepływności Wykorzystywany, gdy wymagana jest niska przepływność binarna, a sygnał jest stereofoniczny

Kwantyzacja i kodowanie Jest to system 2 zagnieżdżonych pętli Kwantyzacja jest wykładnicza – wyższe wartości kodowane są z mniejszą dokładnością. W proces kwantyzacji wbudowany jest również noise shaping Skwantowane wartości są kodowane za pomocą kodowania Huffmana (bezstratnego – budowa drzewa od liści do korzenia) Pozostałe elementy dopracowywane są w 2 pętlach metodą analysis-by-synthesis http://www.iis.fhg.de/amm/techinf/layer3/index.html

MPEG-2 AAC (Advanced Audio Coding) Kodowanie dźwięku dookólnego (5.1) http://www.iis.fhg.de/amm/techinf/aac/index.html

MPEG-2 AAC MPEG-2 AAC jest kontynuacją MP3 Dopuszczalne częstotliwości próbkowania 8-96 kHz i dowolna liczba kanałów 1-48 Wykorzystanie kodowania perceptualnego (maskowanie): szum kwantyzacji jest rozdzielany do pasm częstotliwościowych tak, aby został zamaskowany przez sygnał, a więc był niesłyszalny Struktura kodera różna od poprzedników

MPEG-2 AAC

MPEG-2 AAC - elementy Zastosowanie MDCT (Modified DCT) TNS – Temporal Noise Shaping – kształtuje dystrybucję szumu kwantyzacji w czasie za pomocą predykcji w dziedzinie częstotliwości W szczególności głos ludzki zyskuje na zastosowaniu TNS

MPEG-2 AAC - elementy Predykcja: wykorzystanie faktu, że pewne sygnały audio dobrze nadają się do predykcji Kwantyzacja: dokładniejsza kontrola rozdzielczości kwantyzacji Bit-stream format: kodowanie z uwzględnieniem entropii dla uzyskania jak najmniejszej redundancji Zastosowanie MPEG-2 AAC: rozgłośnie cyfrowe, MPEG-4

Metody kompresji obrazu Bezstratne (dokładne odtworzenie danych) Probabilistyczne, np. statystyczne – budowa binarnego drzewa kodów; symbole częściej występujące umieszczane są bliżej korzenia metoda Huffmana – budowa od liści do korzenia metoda Shannona-Fano - odwrotnie Słownikowe (Ziv, Lempel – Hajfa, koniec lat 70.) - zastąpienie powtarzających się ciągów znaków odniesieniami do ich pierwotnego wystąpienia Stratne - duży stopień upakowania kosztem utraty szczegółów

Kompresja obrazu Metody Najbardziej efektywne metody - stratne: symetryczne asymetryczne Najbardziej efektywne metody - stratne: Kompresja JPEG Kompresja fraktalna

Kompresja obrazu Zdjęcie B w formacie bmp m·n komórek danych, po jednej dla każdego piksela Wielkość komórki jest różna w zależności od rodzaju zdjęcia Czarno-białe  1 bit (0  biały/1 czarny) Dwuwymiarowy zbiór w którym interesują nas tylko piksele których bit = 1 Możemy rozpatrywać to zdjęcie jako zwarty podzbiór R2 B w skali szarości  podzbiór R3 Trzeci bajt odpowiada za określenie intensywności skali szarości B - zdjęcie kolorowe  podzbiór R5

Kompresja stratna obrazu - JPEG JPEG (Joint Photographic Experts Group) – grupa ekspertów opracowująca standardy kodowania obrazów ciągłych ISO i ITU-T; oficjalna nazwa: ISO/IEC JTC1 SC29 Working Group 1 http://www.jpeg.org/public/jpeghomepage.htm Opisy standardu: http://www.jpeg.org/public/jpeglinks.htm

Kompresja JPEG Przekształcenie obrazu RGB w YCrCb: Kolory RGB skwantowane na 220 poziomach zostają zamienione na luminancję (jaskrawość) Y i chrominancję (kolorowość) CrCb, również 220 poziomów Kodowana jest 1 para wartości chrominancji na każde 2 wartości luminancji

Kompresja JPEG c.d. Zastosowanie DCT (Discrete Cosine Transform) dla bloków 8x8 pikseli Kwantyzacja, zależna od częstotliwości przestrzennej RLE (Run Length Encoding) i metoda Huffmana, w oparciu o obliczanie entropii i przewidywanie oczekiwanego wzorca danych JPEG wykorzystuje względną niewrażliwość ludzkiego oka na kontrasty koloru (odcienie), tj. zmiany chrominancji, w porównaniu z luminancją. Możliwa jest zmiana kroku kwantyzacji dla każdego składnika częstotliwości, tj. większy krok może reprezentować mniej znaczące częstotliwości

Kompresja JPEG Przykłady porównania obrazów oryginalnych i skomprymowanych za pomocą standardu JPEG http://www.bk.isy.liu.se/~svan/jpeg.html (z lewej oryginał, z prawej – po kompresji)

Kompresja JPEG - przykłady

Kompresja JPEG - wady Efekt zblokowania pikseli Efekt zniekształcenia krawędzi

JPEG 2000 Kompresja obrazu w oparciu o analizę falkową Zastosowania: aparaty cyfrowe, obrazy medyczne i inne http://www.jpeg.org/jpeg2000/ Części (1-standard, 2-6 – ukończone, 8-11 – w przygotowaniu): Part 1, Core coding system (intended as royalty and license-fee free - NB NOT patent-free) Part 2, Extensions (adds more features and sophistication to the core) Part 3, Motion JPEG 2000 Part 4, Conformance Part 5, Reference software (Java and C implementations are available) Part 6, Compound image file format (document imaging, for pre-press and fax-like applications, etc.) Part 7 has been abandoned Part 8, JPSEC (security aspects) Part 9, JPIP (interactive protocols and API) Part 10, JP3D (volumetric imaging) Part 11, JPWL (wireless applications) Part 12, ISO Base Media File Format (common with MPEG-4)

JPEG 2000 Part 1 definiuje podstawowy format plików, JP2 Można w nim dołączać metadane JP2 wykorzystuje rozszerzalną architekturę, wspólną dla innych formatów plików, definiowanych w dalszych częściach standardu

JPEG 2000 http://www.lkn.ei.tum.de/studium/mmprog/jpeg2000/jpeg2000.htm

JPEG 2000

JPEG 2000

Kompresja fraktalna. Fraktale Kompresja oparta na lokalnym samopodobieństwie obrazu

Przykłady fraktali: zbiór Julii

Przykłady fraktali: żuk Mandelbrota Benoit Mandelbrot – pionier fraktali

Kompresja fraktalna Z obserwacji Barnsley’a wynika, ze obrazy z rzeczywistego świata zawierają dużo powtórzeń afinicznych (złożenie przesunięcia, obrotu i przeskalowania). Oznacza to, ze przy odpowiedniej funkcji IFS duże części obrazu są podobne do mniejszych części tego samego obrazu http://www.math.psu.edu/tseng/class/Fractals.html

Kompresja fraktalna: Podstawowe zasady Przekształcenia afiniczne: złożenie obrotu, przesunięcia i skalowania Rozpatrujemy afiniczne odwzorowanie zwężające współczynnik skalowania < 1. R2: W(x,y) = (ax+by+e, cx+dy+f) Parametry a,b,c,d opisują obrót i skalowanie Parametry e i f to odległości przesunięć w kierunku x i y.

Iterated Function Systems – IFS Krzywa Kocha 3 krzywe – płatek śniegu

Przekształcenia Kocha

Kompresja fraktalna Oparta na lokalnym samopodobieństwie obrazu I etap - segmentacja obrazu i wyszukanie lokalnego samopodobieństwa. Obraz traktowany jest jako funkcja f(x,y), określająca wartość piksela Zakodowanie obrazu jako zbioru przekształceń, odwzorowujących pewien segment rysunku w jego kopię. Każde takie przekształcenie kodowane jest jako IFS (Iterated Function System), tj. iterowany układ funkcji {K, wn: n = 1,...,N}, gdzie wn: K →K - funkcje ciągłe, K - zwarta przestrzeń metryczna z metryką d, wn – zwykle afiniczne Uzyskiwany duży stopień kompresji nie powoduje efektów ubocznych charakterystycznych dla metody JPEG (zblokowanie pikseli)

Kompresja fraktalna IFS atraktor http://thor.csie.ntu.edu.tw/notebook/fractal/fic_review/ticc.html Fraktal: wymiar Hausdorffa dH różny od topologicznego

Podstawa kompresji fraktalnej Collage Theorem:

Kompresja fraktalna Obraz traktowany jest jako funkcja f(x, y) opisująca piksel Podział na „Domain Regions” (obszary samopodobne) Podział na „Range Regions” Dopasowywanie The fractal image compression first partitions the original image into nonoverlapping domain regions (they can be any size or shape). Then a collection of possible range regions is defined. The range regions can overlap and need not cover the entire image, but must be larger than the domain regions, For each domain region the algorithm then searches for a suitable range region that, when applied with an appropriate affine transformation, very closely resembles the domain region http://www.math.psu.edu/tseng/class/Fractals.html Matematyczny opis w pliku FIF Kompresja niezależna od rozdzielczości zdjęcia

Dekompresja obrazu Alokacja 2 buforów Podział Odwzorowania Bufor 1 – „Range Region” Bufor 2 – „Domain Region” Podział Odwzorowania Zamiana rolami Utworzenie obrazu wynikowego To decompress an image, the compressor first allocates 2 memory buffers of equal size, with arbitrary initial content. The iterations then begin, with buffer 1 the range image and buffer 2 the domain image. The domain image is partitioned into DR as specified in the FIF file. For each DR, its associated RR is located in the range image. Then the corresponding affine map is applied to the content of the RR, pulling the content toward the map's attractor. Since each of the affine maps is contractive, the RR is contracted by the transformation. This is the reason that the RR are required to be larger than the DR during compression. For the next iteration, the roles of the domain image and range image are switched. The process of mapping the RR (now in buffer 2) to their respective DR (in buffer 1) is repeated, using the prescribed affine transformations. Then the entire step is repeated again and again, with the content of buffer 1 mapped to buffer 2, then vice versa. At every step, the content is pulled ever closer to the attractor of the IFS which forms a collage of the original image. Eventually the differences between the two images become very small, and the content of the first buffer is the output decompressed image

FIC vs. JPEG Cechy JPEG Wady FIC Metoda DCT - Discrete Cosine Transform Zależny od rozdzielczości obrazu kompresowanego Niezadowalająca jakość kompresji ostrych krawędzi Wady FIC Długi czas kompresji – brak możliwości software’owego kodowania w czasie rzeczywistym

Generacja krajobrazów za pomocą fraktali Fractal Wireframe

Flat-Shared Rendering

Ray-Traced Rendering

Full Rendering

Formaty plików wideo avi, ifv mpeg, mpg, mpe, m1v mov qt rm asf, wm, wmv, wmp, asx VDOLive Div-X http://netdesign.beep.pl/multimedia_formaty.shtml

Kompresja obrazów ruchomych MPEG M-JPEG (Moving JPEG) http://www.terran-int.com/CodecCentral/Codecs/MJPEG.html P*64 (CCITT H.261) – standardowy kodek wideotelefoniczny Przesyłanie z przepływnością będącą wielokrotnością 64kbit/s (podstawowe połączenie telefoniczne)

Kompresja obrazów ruchomych - MPEG MPEG - Moving Pictures Expert Group jest częścią International Standards Organisation; odpowiada za cyfrową kompresję audio i wideo Standard pozwala na kompresję w stosunku od 50:1 do 200:1 http://www.mpeg.org/MPEG/ http://wwwam.hhi.de/mpeg-video/papers/sikora/mpeg1_2/mpeg1_2.htm http://www.wlv.ac.uk/~c9653177/mpeg.html

Kompresja obrazów ruchomych - MPEG MPEG-1: przeznaczony do CD-I i Video-CD, pozwala na transmisję 1.5 Mbps. MPEG-2: standard dla TV cyfrowej i DVD (Digital Video Disc).  Jest to zaawansowana wersja layer-1, z możliwością kodowania obrazów z przeplotem; 4 Mbps. MP3: standard kompresji audio MPEG-4: standard przewidywany do pokonania problemów z wielością standardów syntezy audio i wideo; przewidziano takie udoskonalenia jak zastosowanie AI do rekonstrukcji obrazu

Techniki kompresji w MPEG Discrete Cosine Transform (DCT) Kwantyzacja Kodowanie Huffmana Kodowanie predykcyjne – obliczanie różnic między ramkami, a następnie kodowanie wyłącznie tych różnic Predykcja dwustronna – na podstawie obrazów poprzednich i następnych

Kodery grafiki i wideo

Standardy kompresji obrazu http://www.coe.iup.edu/portfolio/HandoutPage/PT3Sitefiles/Miscellaneous/ImageFiles.doc

Standardy kompresji obrazu MPEG-2 – formaty próbkowania składowych luminancji i chrominancji 4:2:0 – 2:1 poziomo i pionowo (rozdzielczość składowych luminancji :chrominancji) 4:2:2 – próbkowanie 2:1 tylko poziomo 4:4:4 – bez przepróbkowania http://www.tvtechnology.com/features/Tech-Corner/f-RH-4.2.2-07.10.02.shtml

Standardy kompresji obrazu

Literatura QUINNEL R. A. (ed.), Image Compression, part I, EDN, Jan 21, 1993 QUINNEL R. A. (ed.), Image Compression, part II, EDN, March 4, 1993 SZCZERBA M., Sound file format conversion/Konwersja formatów plików dźwiękowych, Zeszyt Naukowy Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej nr 10, 1996 http://www.coe.iup.edu/portfolio/HandoutPage/PT3Sitefiles/Miscellaneous/ImageFiles.doc