Konzepte Content-Repräsentation & Markup-Sprachen

5.5 Digitale Videokompression: Grundlagen und Verfahren

Die ersten drei Abschnitte dieser Lerneinheit haben einen Einblick in die Kino- und Fernsehtechnik gegeben, die grundlegenden Verfahren bei der Erzeugung von Bewegtbildern vorgestellt und aufgezeigt, welche Datenrate bei verschiedenen Repräsentationen zu erwarten ist. Insbesondere die Ausführungen zum digitalen Studiostandard ITU-R BT.601 zeigen, daß Bewegtbilder, die auf diesem Format basieren, für die Übertragung erheblich komprimiert werden müssen. In diesem Abschnitt werden die grundlegenden Prinzipien der digitalen Bewegtbildkompression beschrieben, auf denen die meisten der heute im Einsatz befindlichen Normen aufsetzen. Eine Übersicht über die Normen selbst und ihre Anwendungsgebiete wird dann im letzten Abschnitt dieser Lerneinheit gegeben.

Wie in der Einleitung zu dieser Lerneinheit bereits ausgeführt, stehen für die Repräsentation von Bewegtbildern diejenigen Verfahren im Vordergrund, die auf weitgehend natürlichen Bildern operieren, die mittels einer Kamera aufgezeichnet worden und für die menschliche Wahrnehmung bestimmt sind. Für die folgenden Betrachtungen gehen wir weiterhin davon aus, daß die Bildfolge bereits in einem digitalen Format vorliegt, eine Analog-Digital-Wandlung mit allen eventuell notwendigen Farbkorrekturen also bereits erfolgt ist. Abbildung 15 stellt die einzelnen Bestandteile eines Videokodierungs- und Dekodierungssystems schematisch dar:

Abbildung 15. Ansätze zur Bewegtbildkompression

  • Eingabe für die Kompressionsalgorithmen sind also einerseits eine Folge von digitalen Einzelbildern einer bestimmten Auflösung, die (nach einer Umwandlung aus dem RGB-Farbraum) als YCbCr-kodierte Bitmap vorliegen, andererseits eine Reihe von Parametern für den Kompressionsalgorithmus, wie etwa die Quantisierungsfaktoren bei Standbildkodierungen.

  • Die Kompressionsalgorithmen operieren auf dieser Folge von Bitmaps und sind bei der Kompression auf die Analyse dieser Bitmaps angewiesen. Sie untersuchen einzelne oder Folgen von Bitmaps auf Eigenschaften, die sie zur effektiven Kompression einsetzen können. Dabei reichen die denkbaren Algorithmen von einfachen Vergleichen zwischen denselben Bereichen aufeinanderfolgender Bilder bis hin zu komplexen Verfahren der Bildverarbeitung, etwa zur Erkennung und Beschreibung von Objekten und deren Bewegungen.

    Die Anwendbarkeit der Algorithmen ist insbesondere durch die heute verfügbare Rechenleistung begrenzt, die sich unter anderem aus den für eine bestimmte Anwendung vertretbaren Kosten, dem verfügbaren Platz usw. ergibt. Die andere wesentliche Einflußgröße ist der durch die Anwendung vorgegebenen Grad der Interaktivität wie eingangs angesprochen: Bei Anwendungen mit unidirektionaler Kommunikation beispielsweise darf der Kodierungsvorgang auch sehr lange dauern, wenn im Anschluß die kodierte Form des Videos (z.B. eines Spielfilms) gespeichert wird. Das Dekodieren und Darstellen muß in Echtzeit und wenig aufwendig zu realisieren sein. Bei bidirektionaler Kommunikation hingegen müssen sowohl Kodierung als auch Dekodierung in Echtzeit geschehen, was das Spektrum der anwendbaren Algorithmen stark einschränkt.

  • Die Ausgabe eines Kompressionsalgorithmus ist ein Bit-, Byte- oder Paketstrom mit eventuell voreinstellbarer, meist möglichst geringer Bandbreite. Der resultierende Datenstrom kann eine feste Bandbreite haben, was beispielsweise für digitales Fernsehen wegen der festen Kanalzuweisungen wünschenswert ist. Oder die Bandbreite kann in Abhängigkeit vom Inhalt (stark) variieren, was bei einigen Video-Anwendungen im Internet zu finden ist. Aus der Ausgabe muß sich für einen Betrachter wiederum eine Bildfolge erzeugen lassen, die im Vergleich zur Eingabe den vorher definierten Qualitätsanforderungen entspricht.

Kodierungsverfahren für Bewegtbilder sind im allgemeinen durch die Syntax und Semantik des Datenstroms und dessen Interpretation durch den Dekodierer im jeweiligen Standard genau definiert. Dadurch wird einem Kodierer vorgegeben, welche Elemente — etwa Kompressionsparameter, DCT-Koeffizienten, Informationen über Änderungen im Bild, Abweichungen usw. — er zur Repräsentation einer Bildfolge verwenden darf. Welche Mittel der Kodierer zur Analyse eines Bildes und zur Generierung des kodierten Datenstroms einsetzt, ist der Implementierung des Kodierers überlassen und bietet damit Möglichkeiten zur Differenzierung zwischen verschiedenen Herstellern. In Grenzen gilt das auch für die Aufbereitung des empfangenen Bildes, etwa im Falle von Übertragungsfehlern.

Bei den in dieser Lerneinheit vorgestellten Verfahren wird davon ausgegangen, daß die Darstellung des komprimierten Bewegtbildes wiederum für einen menschlichen Betrachter bestimmt ist. Wie bereits in Lerneinheit 3 diskutiert, lassen sich (Stand-)Bilder in mehreren Dimensionen komprimieren:

  • Durch die Reduktion der Anzahl der Bildpunkte, die pro Komponente eines Farbraums kodiert wird. JPEG wie auch die verschiedenen Verfahren für Fernsehübertragungen verwenden nach einer Umwandlung des Bildes aus dem RGB-Signals in den YUV- bzw. YCbCr-Farbraum eine horizontal und/oder vertikal geringere Auflösung für die Chroma-Komponenten als für die Luma-Komponente, weil auch das menschliche Auge Farben weniger hochauflösend wahrnimmt als Helligkeiten. Objektiv ist eine solche Kompression jedoch immer verlustbehaftet.

  • Durch die Reduktion der mittleren Datenmenge, die pro Bildpunkt gespeichert werden muß. Verfahren wie JPEG machen hierzu unter anderem von den Eigenschaften natürlicher Bilder mit fließenden Farb- und Helligkeitsverläufen Gebrauch. Sie eliminieren in komplexen Algorithmen die räumliche Redundanz des Bildes. Diese Datenreduktion kann verlustbehaftet oder verlustfrei sein.

Die in Lerneinheit 2 beschriebenen Kodierungsverfahren für natürliche Standbilder wie etwa JPEG nutzen diese Möglichkeiten in Kombination aus. Dieselben grundlegenden Verfahren finden auch bei der Kodierung der einzelnen Bilder einer Bildfolge Anwendung. Bei der Kodierung von Bewegtbildern unterscheidet man verschiedene Bildtypen: Ein Vollbild wird als Picture bezeichnet, ein Halbbild des Zeilensprungverfahren als Field; ein Frame bezeichnet jeweils den Gegenstand des Kodiervorgangs, also entweder ein Picture oder ein Field. Im folgenden trennen wir bei unseren Betrachtungen nicht zwischen Halb- und Vollbildern und verwenden daher die Begriffe Frame und (Einzel-)Bild synonym.

Im einfachsten Fall können Bewegtbilder als Folge von JPEG-kodierten Einzelbildern repräsentiert und übertragen werden; dieses Verfahren wird dann auch Motion-JPEG, M-JPEG, genannt. Diese Vorgehensweise ist aber suboptimal, denn ergänzend zur den oben genannten Eigenschaften der Standbildkodierung kann für Bewegtbildkodierungen auch noch die zeitliche Redundanz innerhalb einer Bildfolge genutzt werden und wesentlich zu erheblich höheren Kompressionsraten beitragen.

Unter zeitlicher Redundanz ist zunächst ganz allgemein zu verstehen, daß sich der Inhalt von aufeinanderfolgenden Einzelbildern in einer Bildfolge oftmals nur unwesentlich ändert. Wenn sich Bildbestandteile jedoch nicht ändern, ist es nicht notwendig, diese Teile für das nächste Bild erneut zu übertragen, da sie dem Empfänger bereits vorliegen. Die folgenden in Abbildung 16 dargestellten Beispiele illustrieren verschiedene Formen zeitlicher Redundanz, die zur effizienten Bildkodierung von heutigen Kodierungsverfahren ausgenutzt werden:

  1. Im einfachsten Fall bleibt ein Bildausschnitt unverändert. Für diesen Teil müssen gar keine neuen Informationen übermittelt werden.

  2. Im Bildausschnitt tritt lediglich eine Veränderung der Lichtverhältnisse (Helligkeit, Farbe) ein; sonst bleibt die Zusammensetzung der Szene gleich. In diesem Fall ist nur die relative Farb- und/oder Helligkeitsänderung zu übertragen.

  3. Ein Objekt im Bild bewegt sich, der Rest der Szene ändert sich nicht. Für dieses Objekt muß nur die Bewegung (Translation, Rotation, eventuell Vergrößerung oder Verkleinerung und neue Beleuchtung) übertragen werden, außerdem die Inhalte des hinter dem bewegten Objekt sichtbar werdenden Bereichs.

  4. Die Kamera schwenkt oder zoomt, wodurch die Bildinhalte verschoben, vergrößert oder verkleinert werden. Einige Inhalte sind nicht mehr sichtbar und/oder neue Inhalte kommen hinzu.

  5. Es kommt zu einem Szenenwechsel, z.B. durch Umschalten auf eine andere Bildquelle oder einen Schnitt in einem Film. In diesem Fall können im allgemeinen keine Informationen vom Vorgängerbild wiederverwendet werden. Der gesamte Bildinhalt muß neu übertragen werden.

Abbildung 16. Zeitliche Veränderungen bei Bewegtbildern

Natürlich können diese verschiedenen Formen in beliebiger Kombination auftreten, und auch weitere Formen der zeitlichen Abhängigkeit aufeinanderfolgender Bilder sind denkbar. In den folgenden Unterabschnitten werden die grundlegenden Mechanismen der Bewegtbildkompression vorgestellt, die vor allem für die Eliminierung (bzw. Minimierung) von zeitlicher Redundanz entworfen worden sind. Dabei werden auch einige anwendungsspezifische Mechanismen berücksichtigt; spezielle Verfahren, die nur in einzelnen Codecs zum Einsatz kommen, werden aber erst in Abschnitt 5.6 angesprochen.

Alle der im folgenden vorgestellten Verfahren lassen sich prinzipiell auf ganze Bilder wie auch auf Bildausschnitte anwenden. Die später betrachteten Kodierungsstandards unterscheiden sich unter anderem darin, wie flexibel die Bildbereiche zur Anwendung der Verfahren ausgewählt werden können.

Kommentare (0)

Ihr Kommentar

Name