Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wstęp do Multimediów Kodowanie wideo. MPEG Synchronizacja dźwięku i obrazu Wykład 6.

Podobne prezentacje


Prezentacja na temat: "Wstęp do Multimediów Kodowanie wideo. MPEG Synchronizacja dźwięku i obrazu Wykład 6."— Zapis prezentacji:

1 Wstęp do Multimediów Kodowanie wideo. MPEG Synchronizacja dźwięku i obrazu Wykład 6

2 2 2 Kodowanie wideo – H.261 H.261, standard P*64 (ITU-T, CCITT) - standardowy kodek wideotelefoniczny ISDN, przystosowany do przesyłania z przepływnością będącą wielokrotnością 64kbit/s (podstawowe połączenie telefoniczne) –P*64, P=1,…,20. operuje na blokach 16x16 pikseli (DCT na blokach 8x8), na danych bez przeplotu, obraz reprezentowany jest w postaci YCrCb próbkowanie chrominancji 4:2:0 Dopuszczalne formaty obrazów, w proporcjach 4:3: –obligatoryjny QCIF (Quarter-Common Intermediate Format) 176 x 144 –opcjonalny CIF

3 3 3 Kodowanie wideo – H.261 Pierwsza ramka kodowana jako intra, następne jako inter z kompensacją ruchu – przemieszczenie grup pikseli z pozycji w poprzedniej ramki (opisane wektorami ruchu) jest przesyłane wraz z różnicą m. przewidywanym a oryginalnym obrazem (kodowane poprzez DCT) Standard do telekonferencji – mały obraz, zwykle głowa i ramiona, ograniczony ruch

4 4 4 Kodowanie wideo – H.261

5 5 5 Kodowanie wideo – H.263 Standard przewidziany do wideotelefonów i wideokonferencji na analogowych liniach telefonicznych (PSTN), ale stał się kodekiem ogólnie stosowanym tam, gdzie wymagana jest niska przepływność binarna Oparty na DCT i MC jak H.261, ale z ulepszeniami dla POTS Wersja 2 (H.263 +) jest bardziej elastyczna i jeszcze zwiększyła zastosowania tego standardu

6 6 Kodowanie wideo – H.263 H.263 jest różnicowym, blokowym kodekiem predykcyjnym, opartym na ITU-T H.261 (wideotelefon ISDN, przepływność binarna 64 kbps i więcej), ale daje znacznie lepsze efekty 2 podstawowe tryby kodowania: –Intraframe coding (I-frame) –Interframe coding (P-frame)

7 7 Intraframe coding Używana jest tylko informacja z danej klatki (każda klatka kodowana jest niezależnie) Zastosowanie DCT i kwantyzacja otrzymanych współczynników Kodowanie skwantowanych wartości za pomocą kodowania Huffmana i VLC (variable length coding)

8 8 Interframe coding Użycie ostatniej ramki jako obrazu referencyjnego Zastosowanie predykcji Obrazy różnicowe wraz z błędem predykcji są kodowane podobnie jak ramki I (DCT -> kwantyzacja -> VLC). H.263 oferuje 4 opcje kodowania dla poprawy kompresji: –Unrestricted Motion Vector mode –Advanced Prediction mode –Syntax-based Arithmetic Coding mode –PB-frames mode

9 9 9 H.263 opcje dla poprawy kompresji: –Unrestricted Motion Vector mode tryb nieograniczonych wektorów ruchu, tj. tryb pracy, w którym piksele brzegowe ramki obrazu mogą być predykcją dla pikseli spoza obrazu, co jest efektywnym rozwiązaniem przy ruchu obiektów na brzegach ramki –Advanced Prediction mode zaawansowany tryb predykcji, z wykorzystaniem Overlapped Block Motion Compensation (4 wektory ruchu, oddzielnie dla każdego bloku luminancji 8x8) – redukcja efektu zblokowania pikseli –Syntax-based Arithmetic Coding mode Tryb arytmetycznego kodowania syntaktyki – opcja kodowania arytmetycznego, zwiększająca stosunek kompresji średnio o 3% w trybie inter i 10% w trybie intra –PB-frames mode 2 ramki (P i B) są zakodowywane w 1 strumień binarny, z przeplecionymi makroblokami z obu ramek. Makroblok z ramki P i makroblok z ramki B muszą być umieszczane wspólnie w pakietach, gdyż każdy makroblok dla ramki B jest kodowany w oparciu o odpowiadający mu makroblok z P. Ewentualna strata części połączonego strumienia wpływa zatem na obie ramki (a być może i na inne)

10 10 H.263 wersja 2 (H.263 +) Nowe typy dla obrazu –Scalability pictures: B – skalowalność czasowa EI i EP – skalowalność przestrzenna –EI – obraz mający obraz referencyjny równoległy w czasie (tj. w tym samym czasie) –EP – obraz mający 2 obrazy referencyjne: 1 poprzedzający w czasie dany EP i 1 równoległy w czasie –Improved PB frames –Custom source formats Nowe tryby kodowania Supplemental enhancement information – możliwość dodania dodatkowej informacji do strumienia wideo

11 11 H.263 wersja 2 (H.263 +) 12 dodatkowych opcji kodowania i bardziej elastyczny podstawowy schemat kodowania Cele zmian Poprawa kompresji Zmniejszenie błędów Większa elastyczność kodera

12 12 H.263 wersja 2 (H.263 +) Opcje dla poprawy kompresji: –Advanced INTRA Coding mode oddzielne tablice VLC dla DCT w trybie Intra, zmodyfikowana dekwantyzacja, przestrzenna predykcja współczynników DCT (tylko składowa stała, pionowo składowa stała i zmienna, lub poziomo składowa stała i zmienna) –Deblocking Filter mode Filtr zależny od wielkości kroku kwantyzacji –Improved PB-frames mode wprzód, wstecz, lub dwukierunkowo –Reference Picture Resampling w celu zmiany formatu źródła; opcja ta udostępnia globalną kompensację ruchu –Reduced-Resolution Update mode tryb pozwalający na odświeżenie obrazu w mniejszej rozdzielczości przestrzennej i pozostawienie detali ze stacjonarnego tła –Alternative INTER VLC mode z wykorzystaniem tablic Intra dla DCT w trybie Inter –Modified Quantization mode bardziej elastyczne zmiany wielkości kroków kwantyzacji, drobniejsza kwantyzacja dla chrominancji, rozszerzony zakres DCT

13 13 H.263 wersja 2 (H.263 +) Zmniejszenie błędów –Slice Structured mode tryb wspierający fragmentację na granicach makrobloków (sekwencyjnie lub arbitralnie, prostokątnie lub nie) –Reference Picture Selection mode przechowywanych jest wiele obrazów referencyjnych, co pozwala na uniknięcie obrazów zawierających błędy –Independent Segment Decoding mode Dla uniknięcia propagacji błędu –Zmiany w trybie Unrestricted Motion Vector i Advanced Prediction: odwracalne kody (tablice) VLC, a także większy zakres wektora ruchu Większa elastyczność –Supplemental Enhancement Information Specification dodatkowe specyfikacje (mogą być pominięte przez dekoder): zamrożenie obrazu i uwolnienie (cały obraz lub jego część), informacje etykietujące (zdjęcie, początek/koniec segmentu, początek/koniec wygładzania progresywnego), oznaczenie przezroczystych pikseli dla kluczowania koloru –Temporal (predykcja dwukierunkowa), SNR, Spatial Scalability mode –Custom picture formats and clock frequencies Formaty obrazu praktycznie dowolne, od 1:1, poprzez 4:3 i 16:9, do m:n, gdzie m i n są względnie pierwsze, a także wyższe częstotliwości PCF (ang. picture clock frequency – częstotliwość obrazu ruchomego, np. 25 Hz w systemie PAL) m/techinf/video/index.html

14 14 H.261, H.263+ i MPEG Standard H.261 jest oparty na ramkach typu I oraz P W standardach H.263+ i MPEG wprowadzono dodatkowo ramki typu B

15 15 MPEG Zastosowany algorytm kompresji obrazu wykorzystuje dyskretną transformatę kosinusową (DCT - Discrete Cosinus Transform) oraz mechanizmy kompensacji ruchu Przy tej technologii jakość obrazu jest porównywalna z jakością uzyskiwaną w analogowych magnetowidach VHS, ale nie może konkurować z analogowym przekazem PAL rt=05_06_ html ort_video/

16 16 MPEG-1 Podobny do H.26x Kodowanie przestrzenne: DCT 8x8, –Kwantyzacja współczynników DCT w oparciu o ważenie perceptulne –Przechowywanie współczynników DCT dla każdego bloku z kolejnością skanowania zig-zag –VLC (variable run-length coding) otrzymanego strumienia współczynników DCT Kodowanie czasowe: jedno- i dwukierunkowa predykcja MC (kompensacja ruchu), z ramkami typu I, P i B

17 17 Schemat kodowania ramki typu I

18 18 Schemat kodowania ramki typu P

19 19 Schemat kodowania ramki typu B

20 20 MPEG-2 MPEG-2 Systems –Definiuje 2 typy strumieni Program: podobny do MPEG-1, ale ze zmodyfikowaną składnią i nowymi funkcjami Transport: odporność na zaszumione kanały, możliwość łączenia wielu programów w pojedynczy strumień –Strumień transportowy stosuje pakiety o stałej długości 188b –Podstawowa struktura dla obu typów: pakiet PES (packetized elementary stream) MPEG-2 Video: strumień z przeplotem ze standardowej TV, HDTV, hierarchiczne lub skalowalne kodowanie wideo Nie standaryzuje metody kodowania, a jedynie syntaktykę strumienia wideo i semantykę dekodowania –2 kodeki wideo: dla kodowania skalowalnego i nieskalowalnego

21 21 MPEG-2

22 22 MPEG-2

23 23 MPEG-4 - ISO/IEC Standard multimedialny dla sieci MPEG-4 dedykowany jest dla integracji produkcji i dystrybucji TV cyfrowej, grafiki interaktywnej i interaktywnych technik multimedialnych (www) Audio Visual Objects (de/multiplexing) Obiektowość (hierarchiczność) skalowalność –jakości –rozdzielczości –złożoności kodera/dekodera animacja twarzy i postaci kształt i kanał alfa 4.htm

24 24 MPEG-4 Określa zasady reprezentacji dźwięku, obrazu ruchomego i strumieni danych, oraz rozszerza je o nowe elementy jak np. grafika rastrowa i wektorowa Jego odmienność wynika z obiektowego podejścia do kodowanego materiału Elementy składowe przekazu reprezentowane są w postaci tzw. obiektów audiowizualnych (primitive audio-visual objects - AVO) –Obiekty mogą być pochodzenia naturalnego tzn. być zarejestrowane przy pomocy kamery wideo lub mikrofonu, syntetyzowane, lub mogą pochodzić z przetworzenia innych obiektów przy pomocy dostępnych technik obróbki sygnałów wizyjnych i fonicznych /kkrr98.pdfhttp://www.kt.agh.edu.pl/~pacyna/conference_papers /kkrr98.pdf

25 25 MPEG-4 Kodowanie obiektowe –Niezależne kodowanie obiektów w obrazie –Możliwość interaktywnego komponowania obiektów na scenie przy wyświetlaniu –Możliwość łączenia grafiki, obiektów animowanych, oraz naturalnych obiektów sceny –Możliwość nadawania scen w 3D Podstawowa jednostka: AVO, Audio-Visual Object –Każdy kodowany AVO jest przekazywany do ES (elementary stream) Skalowalność wideo, czasowa i przestrzenna, dla efektywnej kontroli przepływności binarnej wideo po stronie nadawczej, w sieci, oraz po stronie odbiorczej, w celu dopasowania dostępnych zasobów transmisji i przetwarzania

26 26 MPEG-4 Do standardowych obiektów zalicza się np. mówiące i poruszające się postaci, 2D i 3D reprezentacje twarzy mówiącej osoby, głos, tło, tekst, grafikę, obiekty statyczne (np. 2D lub 3D biurko) etc. –Każdy obiekt jest kodowany niezależnie od otaczającego je kontekstu, co umożliwia jego wyizolowanie i powtórne wykorzystanie Obiekty elementarne mogą być łączone w celu wytworzenia obiektów złożonych, które po odpowiednim skomponowaniu tworzą sceny audiowizualne możliwe jest budowanie scen –standard zapewnia metody synchronizacji, dzięki czemu zachowane są wzajemne relacje przestrzenne i czasowe obiektów

27 27 MPEG-4 Łączy elementy telewizji cyfrowej, grafiki interaktywnej i www (na których jest oparty) –Cel: dostarczenie mechanizmów w celu łączenia produkcji, dystrybucji i wyświetlania elementów Dostarcza: –Mechanizmy ochrony własności intelektualnej dla danej zawartości multimedialnej –Transport zawartości z wykorzystaniem technologii QoS, dostosowanej do każdego komponentu –Wysoki poziom interakcji z użytkownikiem, Pewne cechy kontrolowane są przez dane multimedialne, inne – lokalnie po stronie odbiorczej

28 28 Kompresja w MPEG-4 MPEG-4 wykorzystuje do kompresji nie tylko DCT, ale także bardzo efektywne algorytmy kompresji falkowej, które stosowane są do kompresji grafiki w standardzie JPEG2000 W porównaniu z DCT wykorzystanie kompresji wavelet zapewnia wyższą jakość obrazu, gdyż algorytm ten nie dzieli klatki na bloki, ale przetwarza całość –Operacje te wymagają znacznie większej mocy obliczeniowej.

29 29 MPEG-4: techniki kompresji wideo Podział obrazu na bloki 8x8 lub makrobloki (MB) 16x16 Predykcja – kompensacja ruchu Transformata cosinusowa (DCT) Kwantyzacja RLE (Run Length Encoding), kodowanie Huffmana dla VLC (variable length codes) video.html

30 30 MPEG-4: kodowanie wideo

31 31 MPEG-4: tryby kodowania wideo Intra-Mode –Wykorzystanie redundancji (redundancy, irrelevancy) przestrzennej w kodowaniu: DCT na blokach, kwantyzacja, RLE (run length encoding), kodowanie Huffmana Wykorzystywana jest wyłącznie informacja z danej klatki – ramka kodowana niezależnie Inter-Mode –Dodatkowo, wykorzystywana jest redundancja czasowa między klatkami wideo –Estymacja ruchu makrobloków między 2 kolejnymi klatkami - predykcja dla danej klatki w oparciu o kompensację ruchu –Następnie, obraz predykcyjny jest odejmowany od oryginalnego, a otrzymany obraz różnicowy podlega DCT, kwantyzacji otrzymanych współczynników oraz VLC –Wektory ruchu, opisujące ruch bloków w obrazie, są konieczne dla dekodera, stąd są również kodowane (poprzez VLC)

32 32 Audio kompresja sygnałów naturalnych synteza dźwięków –SAOL - structured audio orchestra language (kodowanie brzmień) –SASL - structured audio score language (kontrola odgrywania dźwięków) synteza mowy –koder parametryczny: 2-4 kb/s –oparty na CELP (code excited linear prediction): 4-25 kb/s Skalowalność

33 33 MPEG4 audio Dekodery –Advanced audio coding –Time-windowed vector quantization Są to 2 standardowe techniki kodowania kanałowego –CELP (code-excited linear prediction); 6-24 kbps –Parametric decoding: sinusoidal synthesis, codebook, methods for noisy excitations and residuals, and spectrum shaping using LPC; 2-12 kbps Można stosować do mowy i innych sygnałów harmonicznych dla skalowalnego zakresu przepływności binarnych, z proporcjonalnymi stratami jakości perceptualnej TTS coding (text-to-speech)/ultra low bit rate Structured Audio – standard built around a sophisticated language, Structured Audio Orchestra Language –Pozwala opisać parametryczne algorytmy przetwarzania sygnału –SASBF – structured audio sample bank format –Synthesizer description language –Wsparcie dla MIDI

34 34 Koncepcja obiektowa scena AVO (Audio-Visual Object) elastyczna synchronizacja i interakcja BIFS – Binary Format for Scene ml pokaz_art_old&art=05_06_2001

35 35 Obiektowo zorientowane kodowanie sekwencji obrazów Wyodrębnianie obiektów (w tym tła) na podstawie analizy jednorodności obszarów pod względem: jasności, barwy, tekstury i kodowanie ich jako: –obrys (kod łańcuchowy) –wnętrze (opis tekstury) Z ramki na ramkę kodowane są zmiany w kształcie obiektów Poszukiwane są modele kształtów obiektów (model compliance object, model failure object) Wykorzystanie wiedzy o kodowanych obiektach (knowledge-based coding) np. w postaci modeli twarzy lub ludzkiego ciała

36 36 Logiczna kompozycja sceny SCENA MECZU ANIMACJA BOISKO GŁOS KOMENTATOR

37 37 BIFS Command BIFS: kod (oparty na VRML) protokół działający na zasadzie zdarzeniowej przykładowe komendy –zamienić cała scenę z inną –usunąć obiekt –dodać obiekt do węzła zbiorczego –zmienić wartość parametru (np. położenie obiektu) możliwości –buforowane ściąganie fragmentów sceny –prosta animacja zdarzeniowa

38 38 Kodowanie kształtów w MPEG-4 Lepsza jakość filmu MPEG-4 przy niższych przepływnościach binarnych wynika z zastosowania techniki kodowania kształtów (Shape Encoding) Kompresja MPEG-4 bazuje nie tylko na analizie niezależnych bloków obrazu wideo –dodatkowo rozpoznawane są obiekty występujące w kolejnych ramkach –Obiekty te są wyodrębniane i kodowane niezależnie od tła Wykorzystanie tej metody pozwala, przy użyciu niewielkiej ilości danych, opisać przesunięcia skomplikowanych obiektów złożonych z wielu makrobloków (Video Object Planes) na niezmieniającym się tle –np. ruchoma twarz prezentera telewizyjnego na nieruchomym tle MPEG-4 wprowadza elementy VOP (Video Object Planes) typu I, P i B, analogicznie do modelu GOP (Group of Pictures) z MPEG-2 –Dzięki zastosowaniu VOP możliwe jest zapisywanie zmian położenia, kształtu i tekstury elementów obrazu w równie oszczędny sposób, jak w przypadku GOP VOP: I-pictures, P-pictures –I-pictures – kodowane z predykcją MC (kompensacja ruchu) w oparciu o najbliższy poprzedni VOP. Każda ramka jest dzielona na rozłączne makrobloki –Dla każdego makrobloku kodowana jest informacja dotycząca 4 bloków luminancji (Y1, Y2, Y3, Y4) i 2 bloków chrominancji (U, V) is encoded bloki: 8x8 pikseli

39 39 GOP i ME

40 40 Shape Encoding SE zwiększa stopień upakowania danych poprzez opis przesuwania się obiektów względem tła

41 41 MPEG-7 MPEG-7 - standard ISO/IEC - "Multimedia Content Description Interface", ma na celu stworzenie standardu opisu zawartości danych multimedialnych MPEG-7 nie jest dedykowany dla konkretnych aplikacji DDL Data Definition Language (XML family)

42 42 MPEG-7 standard opisu zawartości danych multimedialnych, umożliwiający przeszukiwanie treści zakodowanych obiektów daje narzędzia tworzenia opisów metadanych, indeksowania i wyszukiwania danych a także kompresji tworzonych metadanych –Deskryptory D (Descriptors) –Opisy DS (Description Schemes)

43 43 MPEG-7 Opis zapisywany jest w DDL (Description Definition Language), bazujący na XML. Może zawierać informacje o takich danych, jak: –Autora, data, prawa własności itd. –Medium kodowania –Fizyczne cechach sygnału –Perceptualne cechach przekazu –Sposób i warunki prezentacji –Struktura przekazu

44 44 MPEG-7 MPEG-7 wykorzystuje deskryptory D (Descriptors) i opisy DS (Description Schemes). W MPEG-7 mamy 3 poziomy opisu: –high-level description, generowane ręcznie, –mid-level description - semantyczne kategorie obiektów w scenie np.: dla wideo - obiekty biorące udział w scenie, dla audio - instrumenty, taksonomia, –low-level description - podstawowe cechy, np.: dla wideo - kolor, kształt, tekstura, dla audio – moc sygnału

45 45 MPEG-7 MPEG-7 definiuje jedynie język opisu zawartości obiektów multimedialnych. Poprzednie standardy grupy MPEG (MPEG-1, MPEG-2 i MPEG-4) zajmowały się normowaniem zwartej reprezentacji samej zawartości obiektów multimedialnych, natomiast MPEG-7 normuje opisy tej zawartości Opisy te – deskryptory - mogą być tworzone przez wytwórcę filmu czy nagrania (np. czołówka filmu cyfrowego), a część może być automatycznie ekstrahowana z nośnika cyfrowego (np. identyfikacja kolorów dominujących, czy cechy obrazu twarzy) Deskryptory mogą być wykorzystane do tworzenia indeksów materiałów multimedialnych, w celu ułatwienia wyszukiwania obiektów multimedialnych w archiwach lokalnych i rozproszonych w sieci komputerowej

46 46 MPEG-7 Standard MPEG-7 składa się z 7 części: –Systems, –Description Definition Language, –Visual, –Audio, –Multimedia Description Schemes, –Reference Software –Conformance MPEG-7 stosuje XML do zapisu deskryptorów, a język XML Schema do definiowania składni tych deskryptorów Skarbek.pdf

47 47 MPEG-7 Typy metadanych można podzielić na: –atrybuty wyższego poziomu, opisywane przez człowieka (np. autor, tytuł, termin emisji, czas trwania, kraj produkcji), –atrybuty niższego poziomu, typu sygnałowego, wyznaczane komputerowo (np. kolor dominujący, histogram krawędzi, aktywność ruchu w obrazie, linia melodyczna utworu muzycznego), –teksty opisowe (recenzje, streszczenia, spisy treści), –indeksy, które mogą być budowane na dowolnych atrybutach i opisach, np. na podstawie atrybutów kluczowych czy słów kluczowych, –skróty indeksowe generowane przez tzw. funkcje skrótu (hash function). Metadane obiektu multimedialnego w MPEG-7 dzielą się na: –metadane o produkcie multimedialnym (np. autorzy, producenci, formaty zapisu), –metadane o treści multimedialnej: metadane semantyczne (np. obiekty, zdarzenia, postacie i role postaci występujących ), metadane sygnałowe (np. kolor, tekstura, natężenie ruchu w obrazie, sygnałowy opis twarzy osoby w obrazie, linia melodyczna nagrania audio, sygnałowy opis dźwięków mowy)

48 48 Wyszukiwanie na podstawie metadanych

49 49 MPEG-7

50 50 MPEG-7 MPEG-7 definiuje uniwersalny interfejs do opisu zawartości multimedialnej poprzez metadane, dając obszerny zestaw deskryptorów wideofonicznych. Podstawowe cechy standardu to wymienność danych w sieci między człowiekiem a komputerem, stworzenie warunków do produkcji uniwersalnych narzędzi obsługi meta-danych, a także łatwość kontroli danych i możliwość kompresji

51 51 MPEG-7 Deskryptory wizualne w MPEG-7: –Podstawowe: Grid Layout, Time Series, Multiple View, Spatial 2D Coordinates, Temporal Interpolation, –Koloru: Color Space, Color Quantization, Dominant Color, Scalable Color (Histogram), Group of Frames Histogram, Color Structure, Color Layout, –Tekstury: Homogeneous Texture, Texture Browsing, Edge Histogram, –Kształtu: Region Shape, Contour Shape, Shape 3D, –Ruchu: Camera Motion, Motion Trajectory, Parametric Motion, Motion Activity, –Lokalizacji: Region Locator, Spatio-temporal Locator.

52 52 MPEG-7 Deskryptory audio w MPEG-7 to m.in.: –Sygnatura audio (Audio Signature) – skalowalna informacja o lokalnych statystykach widma dźwięku, –Deskryptory brzmienia instrumentów (Musical Instrument Timbre) – szereg deskryptorów charakteryzujących brzmienie instrumentu w terminach bazowych charakterystyk widmowych takich, jak centroid widma harmonicznego, jego rozproszenie, itp. –Deskryptor melodii (Melody) – złożony deskryptor zawierający między innymi sygnaturę temporalną i linię melodyczną w postaci ciągu zmian melodycznych (np. +2 oznacza multiplikatywny przyrost interwałowy na osi częstotliwości o co najmniej 250*2+1/1200 jednostek), –Deskryptory rozpoznawania i indeksowania dźwięku (General Sound Recognition and Indexing) – szereg deskryptorów pozwalających dokonywać rozróżnienia dźwięków na poziomie ogólnym, np. między muzyką, mową, a szumem lub bardziej szczegółowym, np. między głosem mężczyzny i kobiety (podstawowym modelem jest ukryty łańcuch Markowa)

53 53 MPEG-7 - zastosowania 7/mpeg-7.htmhttp://www.chiariglione.org/mpeg/standards/mpeg- 7/mpeg-7.htm rbek.pdfhttp://www.ploug.org.pl/konf_03/materialy/pdf/12_Ska rbek.pdf

54 54 MPEG-7 - zastosowania Biblioteki cyfrowe Edukacja na odległość (np. katalogi obrazów, słowniki muzyczne, katalogi obrazowania biomedycznego) Edycja materiałów multimedialnych (np. zindywidualizowane serwisy wiadomości, multimedialne narzędzia autorskie) Kultura (np. muzea, galerie sztuki) Katalogi multimedialne (np. informatory turystyczne, geograficzne systemy informacyjne, katalogi produktów firmowych) Selekcja medium nadawczego (np. program radiowy, kanał telewizyjny) Dziennikarstwo (np. wyszukiwanie przemówień danego polityka na podstawie jego nazwiska, głosu lub zdjęcia) Handel elektroniczny (np. katalogi w sieci, wykazy sklepów elektronicznych, zindywidualizowany serwis reklamowy) Monitorowanie i nadzór wizyjny (np. kontrola ruchu drogowego, transport naziemny, nieinwazyjne pomiary w warunkach trudnego dostępu) Służby śledcze (np. rozpoznawanie cech charakterystycznych człowieka) Rozrywka domowa (np. systemy zarządzania prywatnymi kolekcjami multimedialnymi z możliwością zmiany zawartości, w tym edycja amatorskich filmów wideo, wyszukiwanie gier, karaoke) Robotyka (inteligentne interfejsy robotów, np. automatyczna selekcja obiektów na podstawie ich przykładowych obrazów)

55 55 MPEG Video w DVD Formaty video w DVD - MPEG –525/60 (NTSC) –625/50 (PAL)

56 56 MPEG Video w DVD MPEG-2, najczęściej stosowany, pozwala na zapis ponad 2 godzin wysokiej jakości wideo na DVD single-sided single-layer MPEG-1 – zdefiniowany jako ¼ rozdzielczości pełnego strumienia wideo CCIR-601- około 8 godzin wideo na DVD single-sided single- layer

57 57 Specyfikacja DVD wideo

58 58 MPEG i kompresja wideo MPEG-2 – formaty próbkowania składowych luminancji i chrominancji –4:2:0 –4:2:2 –4:4:4 „Raw data” dla nieskomprymowanego wideo CCIR-601 dla formatu 4:2:2 ~ 20 MBps Film 120 minut ~ 144 GB bez audio DVD (4.7 GB) wymaga kompresji około 32:1 dla single-sided DVD-5 - MPEG-2

59 59 MPEG-2 i GOP 3 typy ramek: I-frames, B-frames, P-frames, –Tylko I zawierają kompletną informację o pikselach Group of Picture (GOP) 15: I-B-B-P-B-B-P-B- B-P-B-B-P-B-B-I –GOP: max 36 fields/18 frames (NTSC) –GOP: max 30 fields/15 frames (PAL)

60 60 Synchronizacja dźwięku i obrazu Synchronizacja urządzeń Kod czasowy

61 61 Synchronizacja dźwięku i obrazu Rozproszenie źródeł wizji i fonii w samej produkcji filmowej oraz w postprodukcji filmowej, wymaga zastosowania technik pozwalających utrzymać źródła w stałej relacji czasowej, tj. w synchronizacji (sync) Główny problem stanowi synchronizacja urządzeń medialnych, którymi jednocześnie mogą być urządzenia analogowe i cyfrowe; połączony na wzór sieci system produkcji filmowej synchronizuje się obecnie za pomocą kilku metod

62 62 Postsynchronizacja dźwięku i obrazu POSTSYNCHRONIZACJA - zapisywanie dźwięku (dialogi, tło muzyczne) towarzyszącego obrazowi filmowemu po wykonaniu zdjęć filmowych; stosowana m.in. w dubbingu

63 63 Synchronizacja urządzeń Różne urządzenia analogowe mają różne prędkości odtwarzania (inny standard, poślizgi na taśmie, wahania napięcia itd.) –urządzenia cyfrowe - regulowalne –trzeba uzgodnić prędkość w punktach czasowych Rozwiązaniem problemu jest zastosowanie kodów czasowych

64 64 Kod czasowy SMPTE identyfikuje dokładną pozycję na taśmie magnetycznej, przypisując jej adres cyfrowy monitorowanie na bieżąco taśmy pozwala na łatwe przypisanie zdarzeń –np. efekt wybuchu w punkcie 01:00:00:11 –można monitorować z różnymi prędkościami taśmy - pokrętło shuttle kod czasowy nagrywany na najwyższej ścieżce na taśmie

65 65 Kod czasowy SMPTE taśma podzielona na ramki (klatki) –ramka = adres kodu czasowego HH:MM:SS:FF słowo kodu czasowego –80 bitowe (numerowane od 0-79) pokrywa całą ramkę (audio/video) kodowanie: modulacja dwufazowa(biphase modulation) –1 - wymuszone przejście stanów w połowie cyklu zegara –0 - zmiana co 1 cykl zegara słowo zawiera: –ramka(zapis od końca) - 26 bitów –32 bity użytkownika –16 bitów synchronizacji (koniec słowa) –6 nieużywanych

66 66 Kod czasowy SMPTE Kodowanie na taśmie magnetycznej – LTC i VITC LTC(Longitudinal Time Code) –przeznaczony do zapisu na taśmach audio - wzdłużnie –(gdy zapisany na taśmach video - zapis na jednej ze ścieżek dźwiękowych) –sygnał prostokątnej fali modulowanej 2400 bitów/sekundę (30 ramek/sek) –czytany nie wolniej niż 1/10 - 1/20 prędkości nominalnej –do 100% dokładności robi się kopie z "wypalonym" na ekranie kodem czasowym (window dub) VITC(Vertical Interval Time Code) –zapis na ścieżce video - poprzecznie - poza obszarem skanowania obrazka –pozwala na czytanie kodu przy "pauzie" (still frame) –odciąża jedną ścieżkę audio - ale zapis 90 bitów

67 67 Kod czasowy SMPTE Dostosowanie do standardów ramek(NTSC/PAL) zapis: 30 ramek/sek –dla sygnału monochromatycznego - kod czasowy odpowiada zegarowi rzeczywistemu (clock-on-the-wall) (non-drop-frame code) –inaczej z sygnałem kolorowym NTSC ramek/sek (0.03 straty/ramkę; 3.6sek/godz –108 ramek) –rozwiązanie: (drop-frame code) –licznik omija 2 ramki (00 i 01) co minutę za wyjątkiem równych dziesiątek minut (00,10,20,03,40,50) EBU 25 ramek/sek – nie stwarza problemów

68 68 Literatura A.Wieczorkowska: Multimedia. Podstawy teoretyczne i zastosowania praktyczne. Wydawnictwo PJWSTK, 2008 ISO/IEC JTC1/SC29/WG11 „CODING OF MOVING PICTURES AND ASSOCIATED AUDIO” dokumenty [CD ] (mpeg1 warstwy 1,2,3), [N1419] i [N2006] (AAC v1) oraz [N3075] (AAC v2) IEEE P1180/D2 "Specification for the implementation of 8x 8 inverse discrete cosine transform". RFC 1889 Audio-Video Transport Working Group „RTP: A Transport Protocol for Real-Time Applications” (DivX)www.projectmaya.com


Pobierz ppt "Wstęp do Multimediów Kodowanie wideo. MPEG Synchronizacja dźwięku i obrazu Wykład 6."

Podobne prezentacje


Reklamy Google