| |
MPEG-4-Video Standard
Seite 29 von 103
Technische Informatik
10.10.2003
Die Bilder einer Videosequenz werden seit jeher Blockweise kodiert. Das heißt ein Bild
wird in ein regelmäßiges Blockraster unterteilt (vgl. DCT), deren Inhalte dann kodiert
werden. In MPEG-4 wird jede Szene als Komposition einer oder mehrer VOs
beschrieben. Sind es ganze Sequenzen, wird ein VO als Sequenz von Video Object
Planes (VOPs) definiert, wobei jeder VOP als eine Instanz des VO zu einer bestimmten
Zeit t betrachtet wird. So ist ein VOP vergleichbar mit einem Frame (MPEG-1/2) in einer
Framesequenz, die durch ein VO beschrieben wird.. Ein VOP wird durch seine
Luminanz-, Chrominanz- (vgl. YUV-Farbmodell) und Shape-Komponenten (vgl. Shape
Coding) beschrieben und kann sowohl rechteckig als auch beliebig gestaltet sein. Die
komplette Hierarchie des MPEG-4-Bitstroms wird in (Abb.9) beschrieben.
An der Spitze steht die Visual Sequence (VS), die beispielsweise eine komplette Szene
eines Films repräsentiert. Eine VS ist unterteilt in VOs, den Video-Objekten (z.B. eine
Person in einer Szene), von denen mehrere Video Object Layers (VOLs) zur Verfügung
stehen können. Im Falle einer qualitativen Skalierung sind es verschiedene
Auflösungen. VOPs mit gleichen Eigenschaften können zu Group of VOPs (GOVs)
gebündelt werden, um mit Headern versehen Random Access oder die
Resynchronisation zu unterstützen.
Für die Kodierung wird ein VOP in VOP-Bounding-Boxes gebündelt (rechteckige Felder
zusammenhängender Texturen, Umrisse oder Transparenz für jede Zeitinstanz), und
abschließend in 16x16 Luminanz- und Chrominanz-Makroblöcke zerlegt. Das ist auch
der Grund, weshalb Videofilme nicht beliebig skaliert sein dürfen, sondern immer einem
Vielfachen von 16 Pixeln entsprechen müssen.
3.2.1 Motion Compensation und Estimation
MPEG-4 gliedert sich in zwei wesentliche Kodiermodi, der Kodierung herkömmlicher
rechteckiger VOs und der Kodierung VOs beliebiger Form. Wird ein normales
rechteckiges Videobild kodiert, werden dem Decoder nur Bewegungs- und Texture-
Informationen übermittelt. Formen werden nicht benötigt. In diesem Stadium gleicht
MPEG-4 den vorherigen Standards sehr. Nur wird hier von VOPs und nicht von Frames
gesprochen. Ein Bild einer Videosequenz, ein VOP, wird in 16x16 Macroblocks (MBs)
mit jeweils Licht- und Farbwerten behandelt, wobei zwischen zwei Modi unterschieden
wird:
Intra Mode
Luminanz- (Y) und Chrominanzwerte (U, V) werden für jeden MB unabhängig von
vorherigen oder zukünftigen VOPs kodiert.
Inter Mode
Die Differenz der Luminanz bzw. Chrominanz eines MB wird hinsichtlich
vorhergesagter zukünftiger oder vergangener VOPs kodiert.
Der Inter Mode ist die eigentliche Idee, die hinter dem MPEG-Konzept steht. Hierbei
wird ausgenutzt, dass sich zwei aufeinanderfolgende Bilder oft nur geringfügig
unterscheiden (wenn es sich um keinen echten Filmschnitt handelt), so dass nur die
Unterschiede (zu zukünftigen oder vergangenen VOPs) zu einem Referenzbild
gespeichert werden müssen. Dieses Prinzip der Ausnutzung der Redundanz wird auch
als Predictive Coding bezeichnet. Ein VOP kann, wie ein Frame, als I-, P- oder B-VOP
kodiert sein. Intra-VOPs (I-VOPs) werden unabhängig von anderen Objekten, also
vollständig wie ein JPEG-Bild komprimiert. Predicted VOPs (P-VOPs) werden in
|  |
|
| |
|
|