Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Kodowanie wideo. MPEG Synchronizacja dźwięku i obrazu

Podobne prezentacje


Prezentacja na temat: "Kodowanie wideo. MPEG Synchronizacja dźwięku i obrazu"— Zapis prezentacji:

1 Kodowanie wideo. MPEG Synchronizacja dźwięku i obrazu
Wstęp do Multimediów Wykład 6 Kodowanie wideo. MPEG Synchronizacja dźwięku i obrazu

2 Kodowanie wideo – H.261 2 H.261, standard P*64 (ITU-T, CCITT) - standardowy kodek wideotelefoniczny ISDN, przystosowany do przesyłania z przepływnością będącą wielokrotnością 64kbit/s (podstawowe połączenie telefoniczne) P*64, P=1,…,20. operuje na blokach 16x16 pikseli (DCT na blokach 8x8), na danych bez przeplotu, obraz reprezentowany jest w postaci YCrCb próbkowanie chrominancji 4:2:0 Dopuszczalne formaty obrazów, w proporcjach 4:3: obligatoryjny QCIF (Quarter-Common Intermediate Format) 176 x 144 opcjonalny CIF

3 Kodowanie wideo – H.261 3 Pierwsza ramka kodowana jako intra, następne jako inter z kompensacją ruchu – przemieszczenie grup pikseli z pozycji w poprzedniej ramki (opisane wektorami ruchu) jest przesyłane wraz z różnicą m. przewidywanym a oryginalnym obrazem (kodowane poprzez DCT) Standard do telekonferencji – mały obraz, zwykle głowa i ramiona, ograniczony ruch

4 Kodowanie wideo – H.261 4

5 Kodowanie wideo – H.263 5 Standard przewidziany do wideotelefonów i wideokonferencji na analogowych liniach telefonicznych (PSTN), ale stał się kodekiem ogólnie stosowanym tam, gdzie wymagana jest niska przepływność binarna Oparty na DCT i MC jak H.261, ale z ulepszeniami dla POTS Wersja 2 (H.263 +) jest bardziej elastyczna i jeszcze zwiększyła zastosowania tego standardu

6 Kodowanie wideo – H.263 H.263 jest różnicowym, blokowym kodekiem predykcyjnym, opartym na ITU-T H.261 (wideotelefon ISDN, przepływność binarna 64 kbps i więcej), ale daje znacznie lepsze efekty 2 podstawowe tryby kodowania: Intraframe coding (I-frame) Interframe coding (P-frame)

7 Intraframe coding Używana jest tylko informacja z danej klatki (każda klatka kodowana jest niezależnie) Zastosowanie DCT i kwantyzacja otrzymanych współczynników Kodowanie skwantowanych wartości za pomocą kodowania Huffmana i VLC (variable length coding)

8 Interframe coding Użycie ostatniej ramki jako obrazu referencyjnego
Zastosowanie predykcji Obrazy różnicowe wraz z błędem predykcji są kodowane podobnie jak ramki I (DCT -> kwantyzacja -> VLC). H.263 oferuje 4 opcje kodowania dla poprawy kompresji: Unrestricted Motion Vector mode Advanced Prediction mode Syntax-based Arithmetic Coding mode PB-frames mode

9 H.263 opcje dla poprawy kompresji: Unrestricted Motion Vector mode
9 opcje dla poprawy kompresji: Unrestricted Motion Vector mode tryb nieograniczonych wektorów ruchu, tj. tryb pracy, w którym piksele brzegowe ramki obrazu mogą być predykcją dla pikseli spoza obrazu, co jest efektywnym rozwiązaniem przy ruchu obiektów na brzegach ramki Advanced Prediction mode zaawansowany tryb predykcji, z wykorzystaniem Overlapped Block Motion Compensation (4 wektory ruchu, oddzielnie dla każdego bloku luminancji 8x8) – redukcja efektu zblokowania pikseli Syntax-based Arithmetic Coding mode Tryb arytmetycznego kodowania syntaktyki – opcja kodowania arytmetycznego, zwiększająca stosunek kompresji średnio o 3% w trybie inter i 10% w trybie intra PB-frames mode 2 ramki (P i B) są zakodowywane w 1 strumień binarny, z przeplecionymi makroblokami z obu ramek. Makroblok z ramki P i makroblok z ramki B muszą być umieszczane wspólnie w pakietach, gdyż każdy makroblok dla ramki B jest kodowany w oparciu o odpowiadający mu makroblok z P. Ewentualna strata części połączonego strumienia wpływa zatem na obie ramki (a być może i na inne)

10 H.263 wersja 2 (H.263 +) Nowe typy dla obrazu Nowe tryby kodowania
10 Nowe typy dla obrazu Scalability pictures: B – skalowalność czasowa EI i EP – skalowalność przestrzenna EI – obraz mający obraz referencyjny równoległy w czasie (tj. w tym samym czasie) EP – obraz mający 2 obrazy referencyjne: 1 poprzedzający w czasie dany EP i 1 równoległy w czasie Improved PB frames Custom source formats Nowe tryby kodowania Supplemental enhancement information – możliwość dodania dodatkowej informacji do strumienia wideo

11 H.263 wersja 2 (H.263 +)   12 dodatkowych opcji kodowania i bardziej elastyczny podstawowy schemat kodowania Cele zmian Poprawa kompresji Zmniejszenie błędów Większa elastyczność kodera

12 H.263 wersja 2 (H.263 +) Opcje dla poprawy kompresji:
12 Opcje dla poprawy kompresji: Advanced INTRA Coding mode oddzielne tablice VLC dla DCT w trybie Intra, zmodyfikowana dekwantyzacja, przestrzenna predykcja współczynników DCT (tylko składowa stała, pionowo składowa stała i zmienna, lub poziomo składowa stała i zmienna) Deblocking Filter mode Filtr zależny od wielkości kroku kwantyzacji Improved PB-frames mode wprzód, wstecz, lub dwukierunkowo Reference Picture Resampling w celu zmiany formatu źródła; opcja ta udostępnia globalną kompensację ruchu Reduced-Resolution Update mode tryb pozwalający na odświeżenie obrazu w mniejszej rozdzielczości przestrzennej i pozostawienie detali ze stacjonarnego tła Alternative INTER VLC mode z wykorzystaniem tablic Intra dla DCT w trybie Inter Modified Quantization mode bardziej elastyczne zmiany wielkości kroków kwantyzacji, drobniejsza kwantyzacja dla chrominancji, rozszerzony zakres DCT

13 H.263 wersja 2 (H.263 +) Zmniejszenie błędów Większa elastyczność
13 Zmniejszenie błędów Slice Structured mode tryb wspierający fragmentację na granicach makrobloków (sekwencyjnie lub arbitralnie, prostokątnie lub nie) Reference Picture Selection mode przechowywanych jest wiele obrazów referencyjnych, co pozwala na uniknięcie obrazów zawierających błędy Independent Segment Decoding mode Dla uniknięcia propagacji błędu Zmiany w trybie Unrestricted Motion Vector i Advanced Prediction: odwracalne kody (tablice) VLC, a także większy zakres wektora ruchu Większa elastyczność Supplemental Enhancement Information Specification dodatkowe specyfikacje (mogą być pominięte przez dekoder): zamrożenie obrazu i uwolnienie (cały obraz lub jego część), informacje etykietujące (zdjęcie, początek/koniec segmentu, początek/koniec wygładzania progresywnego), oznaczenie przezroczystych pikseli dla kluczowania koloru Temporal (predykcja dwukierunkowa), SNR, Spatial Scalability mode Custom picture formats and clock frequencies Formaty obrazu praktycznie dowolne, od 1:1, poprzez 4:3 i 16:9, do m:n, gdzie m i n są względnie pierwsze, a także wyższe częstotliwości PCF (ang. picture clock frequency – częstotliwość obrazu ruchomego, np. 25 Hz w systemie PAL) m/techinf/video/index.html

14 H.261, H.263+ i MPEG Standard H.261 jest oparty na ramkach typu I oraz P W standardach H.263+ i MPEG wprowadzono dodatkowo ramki typu B

15 MPEG 15 Zastosowany algorytm kompresji obrazu wykorzystuje dyskretną transformatę kosinusową (DCT - Discrete Cosinus Transform) oraz mechanizmy kompensacji ruchu Przy tej technologii jakość obrazu jest porównywalna z jakością uzyskiwaną w analogowych magnetowidach VHS, ale nie może konkurować z analogowym przekazem PAL

16 MPEG-1 Podobny do H.26x Kodowanie przestrzenne: DCT 8x8,
16 Podobny do H.26x Kodowanie przestrzenne: DCT 8x8, Kwantyzacja współczynników DCT w oparciu o ważenie perceptulne Przechowywanie współczynników DCT dla każdego bloku z kolejnością skanowania zig-zag VLC (variable run-length coding) otrzymanego strumienia współczynników DCT Kodowanie czasowe: jedno- i dwukierunkowa predykcja MC (kompensacja ruchu), z ramkami typu I, P i B

17 Schemat kodowania ramki typu I

18 Schemat kodowania ramki typu P
18

19 Schemat kodowania ramki typu B
19

20 MPEG-2 20 MPEG-2 Systems Definiuje 2 typy strumieni Program: podobny do MPEG-1, ale ze zmodyfikowaną składnią i nowymi funkcjami Transport: odporność na zaszumione kanały, możliwość łączenia wielu programów w pojedynczy strumień Strumień transportowy stosuje pakiety o stałej długości 188b Podstawowa struktura dla obu typów: pakiet PES (packetized elementary stream) MPEG-2 Video: strumień z przeplotem ze standardowej TV, HDTV, hierarchiczne lub skalowalne kodowanie wideo Nie standaryzuje metody kodowania, a jedynie syntaktykę strumienia wideo i semantykę dekodowania 2 kodeki wideo: dla kodowania skalowalnego i nieskalowalnego

21 MPEG-2 21

22 MPEG-2 22

23 MPEG-4 - ISO/IEC 14496 Standard multimedialny dla sieci
MPEG-4 dedykowany jest dla integracji produkcji i dystrybucji TV cyfrowej, grafiki interaktywnej i interaktywnych technik multimedialnych (www) Audio Visual Objects (de/multiplexing) Obiektowość (hierarchiczność) skalowalność jakości rozdzielczości złożoności kodera/dekodera animacja twarzy i postaci kształt i kanał alfa

24 MPEG-4 Określa zasady reprezentacji dźwięku, obrazu ruchomego i strumieni danych, oraz rozszerza je o nowe elementy jak np. grafika rastrowa i wektorowa Jego odmienność wynika z obiektowego podejścia do kodowanego materiału Elementy składowe przekazu reprezentowane są w postaci tzw. obiektów audiowizualnych (primitive audio-visual objects - AVO) Obiekty mogą być pochodzenia naturalnego tzn. być zarejestrowane przy pomocy kamery wideo lub mikrofonu, syntetyzowane, lub mogą pochodzić z przetworzenia innych obiektów przy pomocy dostępnych technik obróbki sygnałów wizyjnych i fonicznych

25 MPEG-4 Kodowanie obiektowe
Niezależne kodowanie obiektów w obrazie Możliwość interaktywnego komponowania obiektów na scenie przy wyświetlaniu Możliwość łączenia grafiki, obiektów animowanych, oraz naturalnych obiektów sceny Możliwość nadawania scen w 3D Podstawowa jednostka: AVO, Audio-Visual Object Każdy kodowany AVO jest przekazywany do ES (elementary stream) Skalowalność wideo, czasowa i przestrzenna, dla efektywnej kontroli przepływności binarnej wideo po stronie nadawczej, w sieci, oraz po stronie odbiorczej, w celu dopasowania dostępnych zasobów transmisji i przetwarzania

26 MPEG-4 Do standardowych obiektów zalicza się np. mówiące i poruszające się postaci, 2D i 3D reprezentacje twarzy mówiącej osoby, głos, tło, tekst, grafikę, obiekty statyczne (np. 2D lub 3D biurko) etc. Każdy obiekt jest kodowany niezależnie od otaczającego je kontekstu, co umożliwia jego wyizolowanie i powtórne wykorzystanie Obiekty elementarne mogą być łączone w celu wytworzenia obiektów złożonych, które po odpowiednim skomponowaniu tworzą sceny audiowizualne możliwe jest budowanie scen standard zapewnia metody synchronizacji, dzięki czemu zachowane są wzajemne relacje przestrzenne i czasowe obiektów

27 MPEG-4 Łączy elementy telewizji cyfrowej, grafiki interaktywnej i www (na których jest oparty) Cel: dostarczenie mechanizmów w celu łączenia produkcji, dystrybucji i wyświetlania elementów Dostarcza: Mechanizmy ochrony własności intelektualnej dla danej zawartości multimedialnej Transport zawartości z wykorzystaniem technologii QoS, dostosowanej do każdego komponentu Wysoki poziom interakcji z użytkownikiem, Pewne cechy kontrolowane są przez dane multimedialne, inne – lokalnie po stronie odbiorczej

28 Kompresja w MPEG-4 MPEG-4 wykorzystuje do kompresji nie tylko DCT, ale także bardzo efektywne algorytmy kompresji falkowej, które stosowane są do kompresji grafiki w standardzie JPEG2000 W porównaniu z DCT wykorzystanie kompresji wavelet zapewnia wyższą jakość obrazu, gdyż algorytm ten nie dzieli klatki na bloki, ale przetwarza całość Operacje te wymagają znacznie większej mocy obliczeniowej.

29 MPEG-4: techniki kompresji wideo
29 Podział obrazu na bloki 8x8 lub makrobloki (MB) 16x16 Predykcja – kompensacja ruchu Transformata cosinusowa (DCT) Kwantyzacja RLE (Run Length Encoding), kodowanie Huffmana dla VLC (variable length codes)

30 MPEG-4: kodowanie wideo
30

31 MPEG-4: tryby kodowania wideo
31 Intra-Mode Wykorzystanie redundancji (redundancy, irrelevancy) przestrzennej w kodowaniu: DCT na blokach, kwantyzacja, RLE (run length encoding), kodowanie Huffmana Wykorzystywana jest wyłącznie informacja z danej klatki – ramka kodowana niezależnie Inter-Mode Dodatkowo, wykorzystywana jest redundancja czasowa między klatkami wideo Estymacja ruchu makrobloków między 2 kolejnymi klatkami - predykcja dla danej klatki w oparciu o kompensację ruchu Następnie, obraz predykcyjny jest odejmowany od oryginalnego, a otrzymany obraz różnicowy podlega DCT, kwantyzacji otrzymanych współczynników oraz VLC Wektory ruchu, opisujące ruch bloków w obrazie, są konieczne dla dekodera, stąd są również kodowane (poprzez VLC)

32 Audio http://mp3.com.pl/mp4-info.html kompresja sygnałów naturalnych
synteza dźwięków SAOL - structured audio orchestra language (kodowanie brzmień) SASL - structured audio score language (kontrola odgrywania dźwięków) synteza mowy koder parametryczny: 2-4 kb/s oparty na CELP (code excited linear prediction): kb/s Skalowalność

33 MPEG4 audio Dekodery TTS coding (text-to-speech)/ultra low bit rate
33 Dekodery Advanced audio coding Time-windowed vector quantization Są to 2 standardowe techniki kodowania kanałowego CELP (code-excited linear prediction); 6-24 kbps Parametric decoding: sinusoidal synthesis, codebook, methods for noisy excitations and residuals, and spectrum shaping using LPC; 2-12 kbps Można stosować do mowy i innych sygnałów harmonicznych dla skalowalnego zakresu przepływności binarnych, z proporcjonalnymi stratami jakości perceptualnej TTS coding (text-to-speech)/ultra low bit rate Structured Audio – standard built around a sophisticated language, Structured Audio Orchestra Language Pozwala opisać parametryczne algorytmy przetwarzania sygnału SASBF – structured audio sample bank format Synthesizer description language Wsparcie dla MIDI

34 Koncepcja obiektowa http://www.chip.pl/arts/n/article_77623.html scena
AVO (Audio-Visual Object) elastyczna synchronizacja i interakcja BIFS – Binary Format for Scene

35 Obiektowo zorientowane kodowanie sekwencji obrazów
35 Wyodrębnianie obiektów (w tym tła) na podstawie analizy jednorodności obszarów pod względem: jasności, barwy, tekstury i kodowanie ich jako: obrys (kod łańcuchowy) wnętrze (opis tekstury) Z ramki na ramkę kodowane są zmiany w kształcie obiektów Poszukiwane są modele kształtów obiektów (model compliance object, model failure object) Wykorzystanie wiedzy o kodowanych obiektach (knowledge-based coding) np. w postaci modeli twarzy lub ludzkiego ciała

36 Logiczna kompozycja sceny
SCENA MECZU KOMENTATOR BOISKO ANIMACJA GŁOS

37 BIFS Command BIFS: kod (oparty na VRML)
protokół działający na zasadzie zdarzeniowej przykładowe komendy zamienić cała scenę z inną usunąć obiekt dodać obiekt do węzła zbiorczego zmienić wartość parametru (np. położenie obiektu) możliwości buforowane ściąganie fragmentów sceny prosta animacja zdarzeniowa

38 Kodowanie kształtów w MPEG-4
Lepsza jakość filmu MPEG-4 przy niższych przepływnościach binarnych wynika z zastosowania techniki kodowania kształtów (Shape Encoding) Kompresja MPEG-4 bazuje nie tylko na analizie niezależnych bloków obrazu wideo dodatkowo rozpoznawane są obiekty występujące w kolejnych ramkach Obiekty te są wyodrębniane i kodowane niezależnie od tła Wykorzystanie tej metody pozwala, przy użyciu niewielkiej ilości danych, opisać przesunięcia skomplikowanych obiektów złożonych z wielu makrobloków (Video Object Planes) na niezmieniającym się tle np. ruchoma twarz prezentera telewizyjnego na nieruchomym tle MPEG-4 wprowadza elementy VOP (Video Object Planes) typu I, P i B, analogicznie do modelu GOP (Group of Pictures) z MPEG-2 Dzięki zastosowaniu VOP możliwe jest zapisywanie zmian położenia, kształtu i tekstury elementów obrazu w równie oszczędny sposób, jak w przypadku GOP VOP: I-pictures, P-pictures I-pictures – kodowane z predykcją MC (kompensacja ruchu) w oparciu o najbliższy poprzedni VOP. Każda ramka jest dzielona na rozłączne makrobloki Dla każdego makrobloku kodowana jest informacja dotycząca 4 bloków luminancji (Y1, Y2, Y3, Y4) i 2 bloków chrominancji (U, V) is encoded bloki: 8x8 pikseli 38

39 GOP i ME

40 Shape Encoding SE zwiększa stopień upakowania danych poprzez opis przesuwania się obiektów względem tła

41 MPEG-7  MPEG-7 - standard ISO/IEC - "Multimedia Content Description Interface", ma na celu stworzenie standardu opisu zawartości danych multimedialnych MPEG-7 nie jest dedykowany dla konkretnych aplikacji DDL Data Definition Language (XML family)

42 MPEG-7 standard opisu zawartości danych multimedialnych, umożliwiający przeszukiwanie treści zakodowanych obiektów daje narzędzia tworzenia opisów metadanych, indeksowania i wyszukiwania danych a także kompresji tworzonych metadanych Deskryptory D (Descriptors) Opisy DS (Description Schemes)

43 MPEG-7 Opis zapisywany jest w DDL (Description Definition Language), bazujący na XML. Może zawierać informacje o takich danych, jak: Autora, data, prawa własności itd. Medium kodowania Fizyczne cechach sygnału Perceptualne cechach przekazu Sposób i warunki prezentacji Struktura przekazu

44 MPEG-7 MPEG-7 wykorzystuje deskryptory D (Descriptors) i opisy DS (Description Schemes). W MPEG-7 mamy 3 poziomy opisu: high-level description, generowane ręcznie, mid-level description - semantyczne kategorie obiektów w scenie np.: dla wideo - obiekty biorące udział w scenie, dla audio - instrumenty, taksonomia, low-level description - podstawowe cechy, np.: dla wideo - kolor, kształt, tekstura, dla audio – moc sygnału

45 MPEG-7 MPEG-7 definiuje jedynie język opisu zawartości obiektów multimedialnych. Poprzednie standardy grupy MPEG (MPEG-1, MPEG-2 i MPEG-4) zajmowały się normowaniem zwartej reprezentacji samej zawartości obiektów multimedialnych, natomiast MPEG-7 normuje opisy tej zawartości Opisy te – deskryptory - mogą być tworzone przez wytwórcę filmu czy nagrania (np. czołówka filmu cyfrowego), a część może być automatycznie ekstrahowana z nośnika cyfrowego (np. identyfikacja kolorów dominujących, czy cechy obrazu twarzy) Deskryptory mogą być wykorzystane do tworzenia indeksów materiałów multimedialnych, w celu ułatwienia wyszukiwania obiektów multimedialnych w archiwach lokalnych i rozproszonych w sieci komputerowej

46 MPEG-7 Standard MPEG-7 składa się z 7 części:
Systems, Description Definition Language, Visual, Audio, Multimedia Description Schemes, Reference Software Conformance MPEG-7 stosuje XML do zapisu deskryptorów, a język XML Schema do definiowania składni tych deskryptorów

47 MPEG-7 Typy metadanych można podzielić na:
47 Typy metadanych można podzielić na: atrybuty wyższego poziomu, opisywane przez człowieka (np. autor, tytuł, termin emisji, czas trwania, kraj produkcji), atrybuty niższego poziomu, typu sygnałowego, wyznaczane komputerowo (np. kolor dominujący, histogram krawędzi, aktywność ruchu w obrazie, linia melodyczna utworu muzycznego), teksty opisowe (recenzje, streszczenia, spisy treści), indeksy, które mogą być budowane na dowolnych atrybutach i opisach, np. na podstawie atrybutów kluczowych czy słów kluczowych, skróty indeksowe generowane przez tzw. funkcje skrótu (hash function). Metadane obiektu multimedialnego w MPEG-7 dzielą się na: metadane o produkcie multimedialnym (np. autorzy, producenci, formaty zapisu), metadane o treści multimedialnej: metadane semantyczne (np. obiekty, zdarzenia, postacie i role postaci występujących ), metadane sygnałowe (np. kolor, tekstura, natężenie ruchu w obrazie, sygnałowy opis twarzy osoby w obrazie, linia melodyczna nagrania audio, sygnałowy opis dźwięków mowy)

48 Wyszukiwanie na podstawie metadanych

49 MPEG-7

50 MPEG-7 MPEG-7 definiuje uniwersalny interfejs do opisu zawartości multimedialnej poprzez metadane, dając obszerny zestaw deskryptorów wideofonicznych. Podstawowe cechy standardu to wymienność danych w sieci między człowiekiem a komputerem, stworzenie warunków do produkcji uniwersalnych narzędzi obsługi meta-danych, a także łatwość kontroli danych i możliwość kompresji

51 MPEG-7 Deskryptory wizualne w MPEG-7:
Podstawowe: Grid Layout, Time Series, Multiple View, Spatial 2D Coordinates, Temporal Interpolation, Koloru: Color Space, Color Quantization, Dominant Color, Scalable Color (Histogram), Group of Frames Histogram, Color Structure, Color Layout, Tekstury: Homogeneous Texture, Texture Browsing, Edge Histogram, Kształtu: Region Shape, Contour Shape, Shape 3D, Ruchu: Camera Motion, Motion Trajectory, Parametric Motion, Motion Activity, Lokalizacji: Region Locator, Spatio-temporal Locator.

52 MPEG-7 Deskryptory audio w MPEG-7 to m.in.:
Sygnatura audio (Audio Signature) – skalowalna informacja o lokalnych statystykach widma dźwięku, Deskryptory brzmienia instrumentów (Musical Instrument Timbre) – szereg deskryptorów charakteryzujących brzmienie instrumentu w terminach bazowych charakterystyk widmowych takich, jak centroid widma harmonicznego, jego rozproszenie, itp. Deskryptor melodii (Melody) – złożony deskryptor zawierający między innymi sygnaturę temporalną i linię melodyczną w postaci ciągu zmian melodycznych (np. +2 oznacza multiplikatywny przyrost interwałowy na osi częstotliwości o co najmniej 250*2+1/1200 jednostek), Deskryptory rozpoznawania i indeksowania dźwięku (General Sound Recognition and Indexing) – szereg deskryptorów pozwalających dokonywać rozróżnienia dźwięków na poziomie ogólnym, np. między muzyką, mową, a szumem lub bardziej szczegółowym, np. między głosem mężczyzny i kobiety (podstawowym modelem jest ukryty łańcuch Markowa)

53 MPEG-7 - zastosowania

54 MPEG-7 - zastosowania Biblioteki cyfrowe
Edukacja na odległość (np. katalogi obrazów, słowniki muzyczne, katalogi obrazowania biomedycznego) Edycja materiałów multimedialnych (np. zindywidualizowane serwisy wiadomości, multimedialne narzędzia autorskie) Kultura (np. muzea, galerie sztuki) Katalogi multimedialne (np. informatory turystyczne, geograficzne systemy informacyjne, katalogi produktów firmowych) Selekcja medium nadawczego (np. program radiowy, kanał telewizyjny) Dziennikarstwo (np. wyszukiwanie przemówień danego polityka na podstawie jego nazwiska, głosu lub zdjęcia) Handel elektroniczny (np. katalogi w sieci, wykazy sklepów elektronicznych, zindywidualizowany serwis reklamowy) Monitorowanie i nadzór wizyjny (np. kontrola ruchu drogowego, transport naziemny, nieinwazyjne pomiary w warunkach trudnego dostępu) Służby śledcze (np. rozpoznawanie cech charakterystycznych człowieka) Rozrywka domowa (np. systemy zarządzania prywatnymi kolekcjami multimedialnymi z możliwością zmiany zawartości, w tym edycja amatorskich filmów wideo, wyszukiwanie gier, karaoke) Robotyka (inteligentne interfejsy robotów, np. automatyczna selekcja obiektów na podstawie ich przykładowych obrazów)

55 MPEG Video w DVD Formaty video w DVD - MPEG 525/60 (NTSC) 625/50 (PAL)

56 MPEG Video w DVD MPEG-2, najczęściej stosowany, pozwala na zapis ponad 2 godzin wysokiej jakości wideo na DVD single-sided single-layer MPEG-1 – zdefiniowany jako ¼ rozdzielczości pełnego strumienia wideo CCIR-601- około 8 godzin wideo na DVD single-sided single- layer

57 Specyfikacja DVD wideo

58 MPEG i kompresja wideo MPEG-2 – formaty próbkowania składowych luminancji i chrominancji 4:2:0 4:2:2 4:4:4 „Raw data” dla nieskomprymowanego wideo CCIR-601 dla formatu 4:2:2 ~ 20 MBps Film 120 minut ~ 144 GB bez audio DVD (4.7 GB) wymaga kompresji około 32:1 dla single-sided DVD-5 - MPEG-2

59 MPEG-2 i GOP 3 typy ramek: I-frames, B-frames, P-frames,
Tylko I zawierają kompletną informację o pikselach Group of Picture (GOP) 15: I-B-B-P-B-B-P-B- B-P-B-B-P-B-B-I GOP: max 36 fields/18 frames (NTSC) GOP: max 30 fields/15 frames (PAL)

60 Synchronizacja dźwięku i obrazu
Synchronizacja urządzeń Kod czasowy

61 Synchronizacja dźwięku i obrazu
Rozproszenie źródeł wizji i fonii w samej produkcji filmowej oraz w postprodukcji filmowej, wymaga zastosowania technik pozwalających utrzymać źródła w stałej relacji czasowej, tj. w synchronizacji (sync) Główny problem stanowi synchronizacja urządzeń medialnych, którymi jednocześnie mogą być urządzenia analogowe i cyfrowe; połączony na wzór sieci system produkcji filmowej synchronizuje się obecnie za pomocą kilku metod

62 Postsynchronizacja dźwięku i obrazu
POSTSYNCHRONIZACJA - zapisywanie dźwięku (dialogi, tło muzyczne) towarzyszącego obrazowi filmowemu po wykonaniu zdjęć filmowych; stosowana m.in. w dubbingu

63 Synchronizacja urządzeń
Różne urządzenia analogowe mają różne prędkości odtwarzania (inny standard, poślizgi na taśmie, wahania napięcia itd.) urządzenia cyfrowe - regulowalne trzeba uzgodnić prędkość w punktach czasowych Rozwiązaniem problemu jest zastosowanie kodów czasowych

64 Kod czasowy SMPTE identyfikuje dokładną pozycję na taśmie magnetycznej, przypisując jej adres cyfrowy monitorowanie na bieżąco taśmy pozwala na łatwe przypisanie zdarzeń np. efekt wybuchu w punkcie 01:00:00:11 można monitorować z różnymi prędkościami taśmy - pokrętło shuttle kod czasowy nagrywany na najwyższej ścieżce na taśmie

65 Kod czasowy SMPTE taśma podzielona na ramki (klatki)
ramka = adres kodu czasowego HH:MM:SS:FF słowo kodu czasowego 80 bitowe (numerowane od 0-79) pokrywa całą ramkę (audio/video) kodowanie: modulacja dwufazowa(biphase modulation) 1 - wymuszone przejście stanów w połowie cyklu zegara 0 - zmiana co 1 cykl zegara słowo zawiera: ramka(zapis od końca) - 26 bitów 32 bity użytkownika 16 bitów synchronizacji (koniec słowa) 6 nieużywanych

66 Kod czasowy SMPTE Kodowanie na taśmie magnetycznej – LTC i VITC LTC(Longitudinal Time Code) przeznaczony do zapisu na taśmach audio - wzdłużnie (gdy zapisany na taśmach video - zapis na jednej ze ścieżek dźwiękowych) sygnał prostokątnej fali modulowanej 2400 bitów/sekundę (30 ramek/sek) czytany nie wolniej niż 1/10 - 1/20 prędkości nominalnej do 100% dokładności robi się kopie z "wypalonym" na ekranie kodem czasowym (window dub) VITC(Vertical Interval Time Code) zapis na ścieżce video - poprzecznie - poza obszarem skanowania obrazka pozwala na czytanie kodu przy "pauzie" (still frame) odciąża jedną ścieżkę audio - ale zapis 90 bitów

67 Kod czasowy SMPTE Dostosowanie do standardów ramek(NTSC/PAL)
zapis: 30 ramek/sek dla sygnału monochromatycznego - kod czasowy odpowiada zegarowi rzeczywistemu (clock-on-the-wall) (non-drop-frame code) inaczej z sygnałem kolorowym NTSC ramek/sek (0.03 straty/ramkę; 3.6sek/godz –108 ramek) rozwiązanie: (drop-frame code) licznik omija 2 ramki (00 i 01) co minutę za wyjątkiem równych dziesiątek minut (00,10,20,03,40,50) EBU 25 ramek/sek – nie stwarza problemów

68 Literatura A.Wieczorkowska: Multimedia. Podstawy teoretyczne i zastosowania praktyczne. Wydawnictwo PJWSTK, 2008 ISO/IEC JTC1/SC29/WG11 „CODING OF MOVING PICTURES AND ASSOCIATED AUDIO” dokumenty [CD ] (mpeg1 warstwy 1,2,3), [N1419] i [N2006] (AAC v1) oraz [N3075] (AAC v2) IEEE P1180/D2 "Specification for the implementation of 8x 8 inverse discrete cosine transform". RFC 1889 Audio-Video Transport Working Group „RTP: A Transport Protocol for Real-Time Applications” (DivX)


Pobierz ppt "Kodowanie wideo. MPEG Synchronizacja dźwięku i obrazu"

Podobne prezentacje


Reklamy Google