Kodowanie wideo. MPEG Synchronizacja dźwięku i obrazu

Slides:

Advertisements

Podobne prezentacje

Wykład 5: Dyskretna Transformata Fouriera, FFT i Algorytm Goertzela

Advertisements

Informacji Geograficznej

Multimedia, prezentacje, wideo, dokumenty elektroniczne

Skalowalny algorytm estymacji ruchu dla systemów rozproszonych

UTK Zestaw III.

Kodery audio operujące w dziedzinie częstotliwości

„TELEWIZJA CYFROWA” DVB-S DVB-T DVB-C ATM/SDH IP.

Stratna kompresja dźwięku

Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006

Wprowadzenie do prezentacji multimedialnych

Projektowanie i programowanie obiektowe II - Wykład IV

Modele baz danych - spojrzenie na poziom fizyczny

Multimedialne bazy danych

KOMPRESJA DANYCH DAWID FREJ. Kompresja danych Kompresja danych - polega na zmianie sposobu zapisu informacji w taki sposób, aby zmniejszyć redundancję

Grafika wektorowa i bitmapa

System webowy do tworzenia kolektywnych prototypów aplikacji sieciowych i mobilnych Łukasz Przywarty

Protokół Komunikacyjny

Instytut Tele- i Radiotechniczny WARSZAWA

Technologia informacyjna

Podstawowe pojęcia i problemy związane z przetwarzaniem plików graficznych.

Interfejsy urządzeń peryferyjnych

Opracował : Przemysław Drzymała

Cele i rodzaje modulacji

RODZAJE TRANSMISJI PRZESYŁANIE INFORMACJI W MODELU WARSTWOWYM

Kierunek : Elektronika i Telekomunikacja

Wanda Klenczon Biblioteka Narodowa

Jak to działa? aplikacje desktopowe usługi online urządzenia

Wymiana informacji w sieciach komputerowych

Autor: Justyna Radomska

Topologie sieci lokalnych.

Model OSI Model OSI (Open Systems Interconnection Reference Model) został wprowadzony w celu ujednolicenia regół komunikacji sieciowej. Obejmuje on cały.

-wyszukiwanie informacji.

Formaty Plików Wideo Kamil Łuczka.

UML W V ISUAL S TUDIO Mateusz Lamparski. UML D EFINICJA Unified Modeling Language (UML) to graficzny język do obrazowania, specyfikowania, tworzenia i.

Animacja na stronie internetowej

TECH – INFO technika, fizyka, informatyka

Model warstwowy sieci ISO/OSI

KARTY DŹWIĘKOWE.

Montaż nieliniowy – montaż materiału obrazowego i dźwiękowego przy użyciu komputera, umożliwiający dostęp do każdego fragmentu materiału w dowolnym momencie.

System plików.

Systemy operacyjne i sieci komputerowe

Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +

PODSTAWY SIECI KOMPUTEROWYCH - MODEL ISO/OSI. Modele warstwowe a sieci komputerowe Modele sieciowe to schematy funkcjonowania, które ułatwią zrozumienie.

Tworzenie i obróbka filmów na potrzeby dydaktyczne z zakresu fizyki

Piotr Czapiewski Wydział Informatyki ZUT. Web Services Description Language.

Integracja dźwięku i obrazu. Obecnie w multimediach obrazowi zawsze towarzyszy dźwięk i na odwrót. Ważną rzeczą jest sposób połączenia dźwięku z obrazem.

Multimedia To media, które wykorzystują różne formy informacji oraz różne formy ich przekazu (np. tekst, dźwięk, grafikę, animację, wideo) w celu dostarczania.

Temat Prezentacji : ZNACZNIKI META TAGS wyk.H. Kozłowski.

Kompresja wideo.

WSPM - Wirtualny System Plików Multimedialnych Igor BOKUN, Stanisław STRELNIK, Krzysztof ZIELIŃSKI Katedra Informatyki Akademia Górniczo-Hutnicza.

 Multimedia jest to ogólne określenie środków komunikacji wykorzystujących różne formy przekazu w celu dostarczenia odbiorcom rozrywki. Multimedia są.

Grafika rastrowa - parametry

Model warstwowy ISO-OSI

Multimedia w HTML5 Statyczne witryny internetowe 2TIa Marek Kwiatkowski.

InformatykaZakresrozszerzony Zebrał i opracował : Maciej Belcarz Obraz i edycja filmów.

Przetwarzanie obrazów

Złącza stosowane w systemach audio

Specjalność E Multimedia Studia dzienne inżynierskie Opiekun specjalności: prof. Krzysztof Marasek.

Grafika 2d - Podstawy. Kontakt Daniel Sadowski FTP: draver/GRK - wyklady.

Digital Radio Mondiale. Dlaczego radiofonia cyfrowa poniżej 30 MHz ? Radiofonia UKF – dobra jakość, ale mały zasięg; Radiofonia AM – gorsza jakość, ale.

Wstęp do Informatyki - Wykład 4

Podstawy Automatyki Człowiek- najlepsza inwestycja

Maciej Leszczyński Kl. 2c

Modele baz danych - spojrzenie na poziom fizyczny

Najważniejsze informacje dotyczące programu Sway.

Zapis prezentacji:

Kodowanie wideo. MPEG Synchronizacja dźwięku i obrazu Wstęp do Multimediów Wykład 6 Kodowanie wideo. MPEG Synchronizacja dźwięku i obrazu

Kodowanie wideo – H.261 2 H.261, standard P*64 (ITU-T, CCITT) - standardowy kodek wideotelefoniczny ISDN, przystosowany do przesyłania z przepływnością będącą wielokrotnością 64kbit/s (podstawowe połączenie telefoniczne) P*64, P=1,…,20. operuje na blokach 16x16 pikseli (DCT na blokach 8x8), na danych bez przeplotu, obraz reprezentowany jest w postaci YCrCb próbkowanie chrominancji 4:2:0 Dopuszczalne formaty obrazów, w proporcjach 4:3: obligatoryjny QCIF (Quarter-Common Intermediate Format) 176 x 144 opcjonalny CIF

Kodowanie wideo – H.261 3 Pierwsza ramka kodowana jako intra, następne jako inter z kompensacją ruchu – przemieszczenie grup pikseli z pozycji w poprzedniej ramki (opisane wektorami ruchu) jest przesyłane wraz z różnicą m. przewidywanym a oryginalnym obrazem (kodowane poprzez DCT) Standard do telekonferencji – mały obraz, zwykle głowa i ramiona, ograniczony ruch

Kodowanie wideo – H.261 4

Kodowanie wideo – H.263 5 Standard przewidziany do wideotelefonów i wideokonferencji na analogowych liniach telefonicznych (PSTN), ale stał się kodekiem ogólnie stosowanym tam, gdzie wymagana jest niska przepływność binarna Oparty na DCT i MC jak H.261, ale z ulepszeniami dla POTS Wersja 2 (H.263 +) jest bardziej elastyczna i jeszcze zwiększyła zastosowania tego standardu http://www.iis.fhg.de/amm/techinf/video/index.html

Kodowanie wideo – H.263 H.263 jest różnicowym, blokowym kodekiem predykcyjnym, opartym na ITU-T H.261 (wideotelefon ISDN, przepływność binarna 64 kbps i więcej), ale daje znacznie lepsze efekty 2 podstawowe tryby kodowania: Intraframe coding (I-frame) Interframe coding (P-frame)

Intraframe coding Używana jest tylko informacja z danej klatki (każda klatka kodowana jest niezależnie) Zastosowanie DCT i kwantyzacja otrzymanych współczynników Kodowanie skwantowanych wartości za pomocą kodowania Huffmana i VLC (variable length coding)

Interframe coding Użycie ostatniej ramki jako obrazu referencyjnego Zastosowanie predykcji Obrazy różnicowe wraz z błędem predykcji są kodowane podobnie jak ramki I (DCT -> kwantyzacja -> VLC). H.263 oferuje 4 opcje kodowania dla poprawy kompresji: Unrestricted Motion Vector mode Advanced Prediction mode Syntax-based Arithmetic Coding mode PB-frames mode

H.263 opcje dla poprawy kompresji: Unrestricted Motion Vector mode 9 opcje dla poprawy kompresji: Unrestricted Motion Vector mode tryb nieograniczonych wektorów ruchu, tj. tryb pracy, w którym piksele brzegowe ramki obrazu mogą być predykcją dla pikseli spoza obrazu, co jest efektywnym rozwiązaniem przy ruchu obiektów na brzegach ramki Advanced Prediction mode zaawansowany tryb predykcji, z wykorzystaniem Overlapped Block Motion Compensation (4 wektory ruchu, oddzielnie dla każdego bloku luminancji 8x8) – redukcja efektu zblokowania pikseli Syntax-based Arithmetic Coding mode Tryb arytmetycznego kodowania syntaktyki – opcja kodowania arytmetycznego, zwiększająca stosunek kompresji średnio o 3% w trybie inter i 10% w trybie intra PB-frames mode 2 ramki (P i B) są zakodowywane w 1 strumień binarny, z przeplecionymi makroblokami z obu ramek. Makroblok z ramki P i makroblok z ramki B muszą być umieszczane wspólnie w pakietach, gdyż każdy makroblok dla ramki B jest kodowany w oparciu o odpowiadający mu makroblok z P. Ewentualna strata części połączonego strumienia wpływa zatem na obie ramki (a być może i na inne)

H.263 wersja 2 (H.263 +) Nowe typy dla obrazu Nowe tryby kodowania 10 Nowe typy dla obrazu Scalability pictures: B – skalowalność czasowa EI i EP – skalowalność przestrzenna EI – obraz mający obraz referencyjny równoległy w czasie (tj. w tym samym czasie) EP – obraz mający 2 obrazy referencyjne: 1 poprzedzający w czasie dany EP i 1 równoległy w czasie Improved PB frames Custom source formats Nowe tryby kodowania Supplemental enhancement information – możliwość dodania dodatkowej informacji do strumienia wideo

H.263 wersja 2 (H.263 +) 12 dodatkowych opcji kodowania i bardziej elastyczny podstawowy schemat kodowania Cele zmian Poprawa kompresji Zmniejszenie błędów Większa elastyczność kodera

H.263 wersja 2 (H.263 +) Opcje dla poprawy kompresji: 12 Opcje dla poprawy kompresji: Advanced INTRA Coding mode oddzielne tablice VLC dla DCT w trybie Intra, zmodyfikowana dekwantyzacja, przestrzenna predykcja współczynników DCT (tylko składowa stała, pionowo składowa stała i zmienna, lub poziomo składowa stała i zmienna) Deblocking Filter mode Filtr zależny od wielkości kroku kwantyzacji Improved PB-frames mode wprzód, wstecz, lub dwukierunkowo Reference Picture Resampling w celu zmiany formatu źródła; opcja ta udostępnia globalną kompensację ruchu Reduced-Resolution Update mode tryb pozwalający na odświeżenie obrazu w mniejszej rozdzielczości przestrzennej i pozostawienie detali ze stacjonarnego tła Alternative INTER VLC mode z wykorzystaniem tablic Intra dla DCT w trybie Inter Modified Quantization mode bardziej elastyczne zmiany wielkości kroków kwantyzacji, drobniejsza kwantyzacja dla chrominancji, rozszerzony zakres DCT

H.263 wersja 2 (H.263 +) Zmniejszenie błędów Większa elastyczność 13 Zmniejszenie błędów Slice Structured mode tryb wspierający fragmentację na granicach makrobloków (sekwencyjnie lub arbitralnie, prostokątnie lub nie) Reference Picture Selection mode przechowywanych jest wiele obrazów referencyjnych, co pozwala na uniknięcie obrazów zawierających błędy Independent Segment Decoding mode Dla uniknięcia propagacji błędu Zmiany w trybie Unrestricted Motion Vector i Advanced Prediction: odwracalne kody (tablice) VLC, a także większy zakres wektora ruchu Większa elastyczność Supplemental Enhancement Information Specification dodatkowe specyfikacje (mogą być pominięte przez dekoder): zamrożenie obrazu i uwolnienie (cały obraz lub jego część), informacje etykietujące (zdjęcie, początek/koniec segmentu, początek/koniec wygładzania progresywnego), oznaczenie przezroczystych pikseli dla kluczowania koloru Temporal (predykcja dwukierunkowa), SNR, Spatial Scalability mode Custom picture formats and clock frequencies Formaty obrazu praktycznie dowolne, od 1:1, poprzez 4:3 i 16:9, do m:n, gdzie m i n są względnie pierwsze, a także wyższe częstotliwości PCF (ang. picture clock frequency – częstotliwość obrazu ruchomego, np. 25 Hz w systemie PAL) http://www.iis.fhg.de/am m/techinf/video/index.html

H.261, H.263+ i MPEG Standard H.261 jest oparty na ramkach typu I oraz P W standardach H.263+ i MPEG wprowadzono dodatkowo ramki typu B

MPEG 15 Zastosowany algorytm kompresji obrazu wykorzystuje dyskretną transformatę kosinusową (DCT - Discrete Cosinus Transform) oraz mechanizmy kompensacji ruchu Przy tej technologii jakość obrazu jest porównywalna z jakością uzyskiwaną w analogowych magnetowidach VHS, ale nie może konkurować z analogowym przekazem PAL http://www.cse.mrt.ac.lk/lecnotes/cs5414/pres/MPEG-Riyaz.ppt http://www.telenetforum.pl/index_2.php?show=pokaz_art_old&art=05_06_2001 http://sound.eti.pg.gda.pl/STUDENT/multimedia/prezentacje/1 http://bmrc.berkeley.edu/frame/research/mpeg/mpeg_overview.html http://broadcastengineering.com/hdtv/broadcasting_special_report_video/ http://www.cs.uccs.edu/~cs525/mpeg/MM93Talk.pdf

MPEG-1 Podobny do H.26x Kodowanie przestrzenne: DCT 8x8, 16 Podobny do H.26x Kodowanie przestrzenne: DCT 8x8, Kwantyzacja współczynników DCT w oparciu o ważenie perceptulne Przechowywanie współczynników DCT dla każdego bloku z kolejnością skanowania zig-zag VLC (variable run-length coding) otrzymanego strumienia współczynników DCT Kodowanie czasowe: jedno- i dwukierunkowa predykcja MC (kompensacja ruchu), z ramkami typu I, P i B

Schemat kodowania ramki typu I

Schemat kodowania ramki typu P 18

Schemat kodowania ramki typu B 19

MPEG-2 20 MPEG-2 Systems Definiuje 2 typy strumieni Program: podobny do MPEG-1, ale ze zmodyfikowaną składnią i nowymi funkcjami Transport: odporność na zaszumione kanały, możliwość łączenia wielu programów w pojedynczy strumień Strumień transportowy stosuje pakiety o stałej długości 188b Podstawowa struktura dla obu typów: pakiet PES (packetized elementary stream) MPEG-2 Video: strumień z przeplotem ze standardowej TV, HDTV, hierarchiczne lub skalowalne kodowanie wideo Nie standaryzuje metody kodowania, a jedynie syntaktykę strumienia wideo i semantykę dekodowania 2 kodeki wideo: dla kodowania skalowalnego i nieskalowalnego

MPEG-2 21

MPEG-2 22

MPEG-4 - ISO/IEC 14496 Standard multimedialny dla sieci MPEG-4 dedykowany jest dla integracji produkcji i dystrybucji TV cyfrowej, grafiki interaktywnej i interaktywnych technik multimedialnych (www) Audio Visual Objects (de/multiplexing) Obiektowość (hierarchiczność) skalowalność jakości rozdzielczości złożoności kodera/dekodera animacja twarzy i postaci kształt i kanał alfa http://www.chiariglione.org/mpeg/standards/mpeg-4/mpeg-4.htm

MPEG-4 Określa zasady reprezentacji dźwięku, obrazu ruchomego i strumieni danych, oraz rozszerza je o nowe elementy jak np. grafika rastrowa i wektorowa Jego odmienność wynika z obiektowego podejścia do kodowanego materiału Elementy składowe przekazu reprezentowane są w postaci tzw. obiektów audiowizualnych (primitive audio-visual objects - AVO) Obiekty mogą być pochodzenia naturalnego tzn. być zarejestrowane przy pomocy kamery wideo lub mikrofonu, syntetyzowane, lub mogą pochodzić z przetworzenia innych obiektów przy pomocy dostępnych technik obróbki sygnałów wizyjnych i fonicznych http://www.kt.agh.edu.pl/~pacyna/conference_papers/kkrr98.pdf

MPEG-4 Kodowanie obiektowe Niezależne kodowanie obiektów w obrazie Możliwość interaktywnego komponowania obiektów na scenie przy wyświetlaniu Możliwość łączenia grafiki, obiektów animowanych, oraz naturalnych obiektów sceny Możliwość nadawania scen w 3D Podstawowa jednostka: AVO, Audio-Visual Object Każdy kodowany AVO jest przekazywany do ES (elementary stream) Skalowalność wideo, czasowa i przestrzenna, dla efektywnej kontroli przepływności binarnej wideo po stronie nadawczej, w sieci, oraz po stronie odbiorczej, w celu dopasowania dostępnych zasobów transmisji i przetwarzania

MPEG-4 Do standardowych obiektów zalicza się np. mówiące i poruszające się postaci, 2D i 3D reprezentacje twarzy mówiącej osoby, głos, tło, tekst, grafikę, obiekty statyczne (np. 2D lub 3D biurko) etc. Każdy obiekt jest kodowany niezależnie od otaczającego je kontekstu, co umożliwia jego wyizolowanie i powtórne wykorzystanie Obiekty elementarne mogą być łączone w celu wytworzenia obiektów złożonych, które po odpowiednim skomponowaniu tworzą sceny audiowizualne możliwe jest budowanie scen standard zapewnia metody synchronizacji, dzięki czemu zachowane są wzajemne relacje przestrzenne i czasowe obiektów

MPEG-4 Łączy elementy telewizji cyfrowej, grafiki interaktywnej i www (na których jest oparty) Cel: dostarczenie mechanizmów w celu łączenia produkcji, dystrybucji i wyświetlania elementów Dostarcza: Mechanizmy ochrony własności intelektualnej dla danej zawartości multimedialnej Transport zawartości z wykorzystaniem technologii QoS, dostosowanej do każdego komponentu Wysoki poziom interakcji z użytkownikiem, Pewne cechy kontrolowane są przez dane multimedialne, inne – lokalnie po stronie odbiorczej

Kompresja w MPEG-4 MPEG-4 wykorzystuje do kompresji nie tylko DCT, ale także bardzo efektywne algorytmy kompresji falkowej, które stosowane są do kompresji grafiki w standardzie JPEG2000 W porównaniu z DCT wykorzystanie kompresji wavelet zapewnia wyższą jakość obrazu, gdyż algorytm ten nie dzieli klatki na bloki, ale przetwarza całość Operacje te wymagają znacznie większej mocy obliczeniowej.

MPEG-4: techniki kompresji wideo 29 Podział obrazu na bloki 8x8 lub makrobloki (MB) 16x16 Predykcja – kompensacja ruchu Transformata cosinusowa (DCT) Kwantyzacja RLE (Run Length Encoding), kodowanie Huffmana dla VLC (variable length codes) http://www.iis.fraunhofer.de/amm/techinf/mpeg4/video.html

MPEG-4: kodowanie wideo 30

MPEG-4: tryby kodowania wideo 31 Intra-Mode Wykorzystanie redundancji (redundancy, irrelevancy) przestrzennej w kodowaniu: DCT na blokach, kwantyzacja, RLE (run length encoding), kodowanie Huffmana Wykorzystywana jest wyłącznie informacja z danej klatki – ramka kodowana niezależnie Inter-Mode Dodatkowo, wykorzystywana jest redundancja czasowa między klatkami wideo Estymacja ruchu makrobloków między 2 kolejnymi klatkami - predykcja dla danej klatki w oparciu o kompensację ruchu Następnie, obraz predykcyjny jest odejmowany od oryginalnego, a otrzymany obraz różnicowy podlega DCT, kwantyzacji otrzymanych współczynników oraz VLC Wektory ruchu, opisujące ruch bloków w obrazie, są konieczne dla dekodera, stąd są również kodowane (poprzez VLC)

Audio http://mp3.com.pl/mp4-info.html kompresja sygnałów naturalnych synteza dźwięków SAOL - structured audio orchestra language (kodowanie brzmień) SASL - structured audio score language (kontrola odgrywania dźwięków) synteza mowy koder parametryczny: 2-4 kb/s oparty na CELP (code excited linear prediction): 4-25 kb/s Skalowalność http://mp3.com.pl/mp4-info.html

MPEG4 audio Dekodery TTS coding (text-to-speech)/ultra low bit rate 33 Dekodery Advanced audio coding Time-windowed vector quantization Są to 2 standardowe techniki kodowania kanałowego CELP (code-excited linear prediction); 6-24 kbps Parametric decoding: sinusoidal synthesis, codebook, methods for noisy excitations and residuals, and spectrum shaping using LPC; 2-12 kbps Można stosować do mowy i innych sygnałów harmonicznych dla skalowalnego zakresu przepływności binarnych, z proporcjonalnymi stratami jakości perceptualnej TTS coding (text-to-speech)/ultra low bit rate Structured Audio – standard built around a sophisticated language, Structured Audio Orchestra Language Pozwala opisać parametryczne algorytmy przetwarzania sygnału SASBF – structured audio sample bank format Synthesizer description language Wsparcie dla MIDI

Koncepcja obiektowa http://www.chip.pl/arts/n/article_77623.html scena AVO (Audio-Visual Object) elastyczna synchronizacja i interakcja BIFS – Binary Format for Scene http://www.chip.pl/arts/n/article_77623.html http://www.telenetforum.pl/index_2.php?show=pokaz_art_old&art=05_06_2001

Obiektowo zorientowane kodowanie sekwencji obrazów 35 Wyodrębnianie obiektów (w tym tła) na podstawie analizy jednorodności obszarów pod względem: jasności, barwy, tekstury i kodowanie ich jako: obrys (kod łańcuchowy) wnętrze (opis tekstury) Z ramki na ramkę kodowane są zmiany w kształcie obiektów Poszukiwane są modele kształtów obiektów (model compliance object, model failure object) Wykorzystanie wiedzy o kodowanych obiektach (knowledge-based coding) np. w postaci modeli twarzy lub ludzkiego ciała

Logiczna kompozycja sceny SCENA MECZU KOMENTATOR BOISKO ANIMACJA GŁOS

BIFS Command BIFS: kod (oparty na VRML) protokół działający na zasadzie zdarzeniowej przykładowe komendy zamienić cała scenę z inną usunąć obiekt dodać obiekt do węzła zbiorczego zmienić wartość parametru (np. położenie obiektu) możliwości buforowane ściąganie fragmentów sceny prosta animacja zdarzeniowa

Kodowanie kształtów w MPEG-4 Lepsza jakość filmu MPEG-4 przy niższych przepływnościach binarnych wynika z zastosowania techniki kodowania kształtów (Shape Encoding) Kompresja MPEG-4 bazuje nie tylko na analizie niezależnych bloków obrazu wideo dodatkowo rozpoznawane są obiekty występujące w kolejnych ramkach Obiekty te są wyodrębniane i kodowane niezależnie od tła Wykorzystanie tej metody pozwala, przy użyciu niewielkiej ilości danych, opisać przesunięcia skomplikowanych obiektów złożonych z wielu makrobloków (Video Object Planes) na niezmieniającym się tle np. ruchoma twarz prezentera telewizyjnego na nieruchomym tle MPEG-4 wprowadza elementy VOP (Video Object Planes) typu I, P i B, analogicznie do modelu GOP (Group of Pictures) z MPEG-2 Dzięki zastosowaniu VOP możliwe jest zapisywanie zmian położenia, kształtu i tekstury elementów obrazu w równie oszczędny sposób, jak w przypadku GOP VOP: I-pictures, P-pictures I-pictures – kodowane z predykcją MC (kompensacja ruchu) w oparciu o najbliższy poprzedni VOP. Każda ramka jest dzielona na rozłączne makrobloki Dla każdego makrobloku kodowana jest informacja dotycząca 4 bloków luminancji (Y1, Y2, Y3, Y4) i 2 bloków chrominancji (U, V) is encoded bloki: 8x8 pikseli 38

GOP i ME

Shape Encoding SE zwiększa stopień upakowania danych poprzez opis przesuwania się obiektów względem tła

MPEG-7 MPEG-7 - standard ISO/IEC - "Multimedia Content Description Interface", ma na celu stworzenie standardu opisu zawartości danych multimedialnych MPEG-7 nie jest dedykowany dla konkretnych aplikacji DDL Data Definition Language (XML family)

MPEG-7 standard opisu zawartości danych multimedialnych, umożliwiający przeszukiwanie treści zakodowanych obiektów daje narzędzia tworzenia opisów metadanych, indeksowania i wyszukiwania danych a także kompresji tworzonych metadanych Deskryptory D (Descriptors) Opisy DS (Description Schemes)

MPEG-7 Opis zapisywany jest w DDL (Description Definition Language), bazujący na XML. Może zawierać informacje o takich danych, jak: Autora, data, prawa własności itd. Medium kodowania Fizyczne cechach sygnału Perceptualne cechach przekazu Sposób i warunki prezentacji Struktura przekazu

MPEG-7 MPEG-7 wykorzystuje deskryptory D (Descriptors) i opisy DS (Description Schemes). W MPEG-7 mamy 3 poziomy opisu: high-level description, generowane ręcznie, mid-level description - semantyczne kategorie obiektów w scenie np.: dla wideo - obiekty biorące udział w scenie, dla audio - instrumenty, taksonomia, low-level description - podstawowe cechy, np.: dla wideo - kolor, kształt, tekstura, dla audio – moc sygnału

MPEG-7 MPEG-7 definiuje jedynie język opisu zawartości obiektów multimedialnych. Poprzednie standardy grupy MPEG (MPEG-1, MPEG-2 i MPEG-4) zajmowały się normowaniem zwartej reprezentacji samej zawartości obiektów multimedialnych, natomiast MPEG-7 normuje opisy tej zawartości Opisy te – deskryptory - mogą być tworzone przez wytwórcę filmu czy nagrania (np. czołówka filmu cyfrowego), a część może być automatycznie ekstrahowana z nośnika cyfrowego (np. identyfikacja kolorów dominujących, czy cechy obrazu twarzy) Deskryptory mogą być wykorzystane do tworzenia indeksów materiałów multimedialnych, w celu ułatwienia wyszukiwania obiektów multimedialnych w archiwach lokalnych i rozproszonych w sieci komputerowej

MPEG-7 Standard MPEG-7 składa się z 7 części: Systems, Description Definition Language, Visual, Audio, Multimedia Description Schemes, Reference Software Conformance MPEG-7 stosuje XML do zapisu deskryptorów, a język XML Schema do definiowania składni tych deskryptorów http://www.ploug.org.pl/konf_03/materialy/pdf/12_Skarbek.pdf

MPEG-7 Typy metadanych można podzielić na: 47 Typy metadanych można podzielić na: atrybuty wyższego poziomu, opisywane przez człowieka (np. autor, tytuł, termin emisji, czas trwania, kraj produkcji), atrybuty niższego poziomu, typu sygnałowego, wyznaczane komputerowo (np. kolor dominujący, histogram krawędzi, aktywność ruchu w obrazie, linia melodyczna utworu muzycznego), teksty opisowe (recenzje, streszczenia, spisy treści), indeksy, które mogą być budowane na dowolnych atrybutach i opisach, np. na podstawie atrybutów kluczowych czy słów kluczowych, skróty indeksowe generowane przez tzw. funkcje skrótu (hash function). Metadane obiektu multimedialnego w MPEG-7 dzielą się na: metadane o produkcie multimedialnym (np. autorzy, producenci, formaty zapisu), metadane o treści multimedialnej: metadane semantyczne (np. obiekty, zdarzenia, postacie i role postaci występujących ), metadane sygnałowe (np. kolor, tekstura, natężenie ruchu w obrazie, sygnałowy opis twarzy osoby w obrazie, linia melodyczna nagrania audio, sygnałowy opis dźwięków mowy)

Wyszukiwanie na podstawie metadanych

MPEG-7

MPEG-7 MPEG-7 definiuje uniwersalny interfejs do opisu zawartości multimedialnej poprzez metadane, dając obszerny zestaw deskryptorów wideofonicznych. Podstawowe cechy standardu to wymienność danych w sieci między człowiekiem a komputerem, stworzenie warunków do produkcji uniwersalnych narzędzi obsługi meta-danych, a także łatwość kontroli danych i możliwość kompresji

MPEG-7 Deskryptory wizualne w MPEG-7: Podstawowe: Grid Layout, Time Series, Multiple View, Spatial 2D Coordinates, Temporal Interpolation, Koloru: Color Space, Color Quantization, Dominant Color, Scalable Color (Histogram), Group of Frames Histogram, Color Structure, Color Layout, Tekstury: Homogeneous Texture, Texture Browsing, Edge Histogram, Kształtu: Region Shape, Contour Shape, Shape 3D, Ruchu: Camera Motion, Motion Trajectory, Parametric Motion, Motion Activity, Lokalizacji: Region Locator, Spatio-temporal Locator.

MPEG-7 Deskryptory audio w MPEG-7 to m.in.: Sygnatura audio (Audio Signature) – skalowalna informacja o lokalnych statystykach widma dźwięku, Deskryptory brzmienia instrumentów (Musical Instrument Timbre) – szereg deskryptorów charakteryzujących brzmienie instrumentu w terminach bazowych charakterystyk widmowych takich, jak centroid widma harmonicznego, jego rozproszenie, itp. Deskryptor melodii (Melody) – złożony deskryptor zawierający między innymi sygnaturę temporalną i linię melodyczną w postaci ciągu zmian melodycznych (np. +2 oznacza multiplikatywny przyrost interwałowy na osi częstotliwości o co najmniej 250*2+1/1200 jednostek), Deskryptory rozpoznawania i indeksowania dźwięku (General Sound Recognition and Indexing) – szereg deskryptorów pozwalających dokonywać rozróżnienia dźwięków na poziomie ogólnym, np. między muzyką, mową, a szumem lub bardziej szczegółowym, np. między głosem mężczyzny i kobiety (podstawowym modelem jest ukryty łańcuch Markowa)

MPEG-7 - zastosowania http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm http://www.ploug.org.pl/konf_03/materialy/pdf/12_Skarbek.pdf

MPEG-7 - zastosowania Biblioteki cyfrowe Edukacja na odległość (np. katalogi obrazów, słowniki muzyczne, katalogi obrazowania biomedycznego) Edycja materiałów multimedialnych (np. zindywidualizowane serwisy wiadomości, multimedialne narzędzia autorskie) Kultura (np. muzea, galerie sztuki) Katalogi multimedialne (np. informatory turystyczne, geograficzne systemy informacyjne, katalogi produktów firmowych) Selekcja medium nadawczego (np. program radiowy, kanał telewizyjny) Dziennikarstwo (np. wyszukiwanie przemówień danego polityka na podstawie jego nazwiska, głosu lub zdjęcia) Handel elektroniczny (np. katalogi w sieci, wykazy sklepów elektronicznych, zindywidualizowany serwis reklamowy) Monitorowanie i nadzór wizyjny (np. kontrola ruchu drogowego, transport naziemny, nieinwazyjne pomiary w warunkach trudnego dostępu) Służby śledcze (np. rozpoznawanie cech charakterystycznych człowieka) Rozrywka domowa (np. systemy zarządzania prywatnymi kolekcjami multimedialnymi z możliwością zmiany zawartości, w tym edycja amatorskich filmów wideo, wyszukiwanie gier, karaoke) Robotyka (inteligentne interfejsy robotów, np. automatyczna selekcja obiektów na podstawie ich przykładowych obrazów) http://www.ploug.org.pl/konf_03/materialy/pdf/12_Skarbek.pdf

MPEG Video w DVD Formaty video w DVD - MPEG 525/60 (NTSC) 625/50 (PAL)

MPEG Video w DVD MPEG-2, najczęściej stosowany, pozwala na zapis ponad 2 godzin wysokiej jakości wideo na DVD single-sided single-layer MPEG-1 – zdefiniowany jako ¼ rozdzielczości pełnego strumienia wideo CCIR-601- około 8 godzin wideo na DVD single-sided single- layer

Specyfikacja DVD wideo

MPEG i kompresja wideo MPEG-2 – formaty próbkowania składowych luminancji i chrominancji 4:2:0 4:2:2 4:4:4 „Raw data” dla nieskomprymowanego wideo CCIR-601 dla formatu 4:2:2 ~ 20 MBps Film 120 minut ~ 144 GB bez audio DVD (4.7 GB) wymaga kompresji około 32:1 dla single-sided DVD-5 - MPEG-2

MPEG-2 i GOP 3 typy ramek: I-frames, B-frames, P-frames, Tylko I zawierają kompletną informację o pikselach Group of Picture (GOP) 15: I-B-B-P-B-B-P-B- B-P-B-B-P-B-B-I GOP: max 36 fields/18 frames (NTSC) GOP: max 30 fields/15 frames (PAL)

Synchronizacja dźwięku i obrazu Synchronizacja urządzeń Kod czasowy

Synchronizacja dźwięku i obrazu Rozproszenie źródeł wizji i fonii w samej produkcji filmowej oraz w postprodukcji filmowej, wymaga zastosowania technik pozwalających utrzymać źródła w stałej relacji czasowej, tj. w synchronizacji (sync) Główny problem stanowi synchronizacja urządzeń medialnych, którymi jednocześnie mogą być urządzenia analogowe i cyfrowe; połączony na wzór sieci system produkcji filmowej synchronizuje się obecnie za pomocą kilku metod

Postsynchronizacja dźwięku i obrazu POSTSYNCHRONIZACJA - zapisywanie dźwięku (dialogi, tło muzyczne) towarzyszącego obrazowi filmowemu po wykonaniu zdjęć filmowych; stosowana m.in. w dubbingu

Synchronizacja urządzeń Różne urządzenia analogowe mają różne prędkości odtwarzania (inny standard, poślizgi na taśmie, wahania napięcia itd.) urządzenia cyfrowe - regulowalne trzeba uzgodnić prędkość w punktach czasowych Rozwiązaniem problemu jest zastosowanie kodów czasowych

Kod czasowy SMPTE identyfikuje dokładną pozycję na taśmie magnetycznej, przypisując jej adres cyfrowy monitorowanie na bieżąco taśmy pozwala na łatwe przypisanie zdarzeń np. efekt wybuchu w punkcie 01:00:00:11 można monitorować z różnymi prędkościami taśmy - pokrętło shuttle kod czasowy nagrywany na najwyższej ścieżce na taśmie

Kod czasowy SMPTE taśma podzielona na ramki (klatki) ramka = adres kodu czasowego HH:MM:SS:FF słowo kodu czasowego 80 bitowe (numerowane od 0-79) pokrywa całą ramkę (audio/video) kodowanie: modulacja dwufazowa(biphase modulation) 1 - wymuszone przejście stanów w połowie cyklu zegara 0 - zmiana co 1 cykl zegara słowo zawiera: ramka(zapis od końca) - 26 bitów 32 bity użytkownika 16 bitów synchronizacji (koniec słowa) 6 nieużywanych

Kod czasowy SMPTE Kodowanie na taśmie magnetycznej – LTC i VITC LTC(Longitudinal Time Code) przeznaczony do zapisu na taśmach audio - wzdłużnie (gdy zapisany na taśmach video - zapis na jednej ze ścieżek dźwiękowych) sygnał prostokątnej fali modulowanej 2400 bitów/sekundę (30 ramek/sek) czytany nie wolniej niż 1/10 - 1/20 prędkości nominalnej do 100% dokładności robi się kopie z "wypalonym" na ekranie kodem czasowym (window dub) VITC(Vertical Interval Time Code) zapis na ścieżce video - poprzecznie - poza obszarem skanowania obrazka pozwala na czytanie kodu przy "pauzie" (still frame) odciąża jedną ścieżkę audio - ale zapis 90 bitów

Kod czasowy SMPTE Dostosowanie do standardów ramek(NTSC/PAL) zapis: 30 ramek/sek dla sygnału monochromatycznego - kod czasowy odpowiada zegarowi rzeczywistemu (clock-on-the-wall) (non-drop-frame code) inaczej z sygnałem kolorowym NTSC - 29.97 ramek/sek (0.03 straty/ramkę; 3.6sek/godz –108 ramek) rozwiązanie: (drop-frame code) licznik omija 2 ramki (00 i 01) co minutę za wyjątkiem równych dziesiątek minut (00,10,20,03,40,50) EBU 25 ramek/sek – nie stwarza problemów

Literatura A.Wieczorkowska: Multimedia. Podstawy teoretyczne i zastosowania praktyczne. Wydawnictwo PJWSTK, 2008 ISO/IEC JTC1/SC29/WG11 „CODING OF MOVING PICTURES AND ASSOCIATED AUDIO” dokumenty [CD 11172-3] (mpeg1 warstwy 1,2,3), [N1419] i [N2006] (AAC v1) oraz [N3075] (AAC v2) IEEE P1180/D2 "Specification for the implementation of 8x 8 inverse discrete cosine transform". RFC 1889 Audio-Video Transport Working Group „RTP: A Transport Protocol for Real-Time Applications” www.projectmaya.com (DivX) www.real.com www.microsoft.com www.mpeg.org