Konzepte Content-Repräsentation & Markup-Sprachen

5.2 Grundlagen von Bewegtbildern: Film

In den vorangegangenen Lerneinheiten wurde bereits beschrieben, daß die verschiedenen Kodierverfahren für natürliche Standbilder, die für die menschliche Wahrnehmung bestimmt sind, die Eigenschaften des menschlichen Sehapparates berücksichtigen, um eine möglichst hohe Kompression zu erzielen: So wird ein Bild entsprechend der menschlichen Wahrnehmung nicht nur als Rot-, Grün- und Blauanteile (RGB) repräsentiert, sondern in Helligkeit (Luminanz) und Farben (Chrominanz) getrennt. Bei analogen und digitalen Kodierungen wird in Ergänzung zur Helligkeit die Farbe statt in RGB als Rot- und Blauabweichung kodiert: beispielsweise YUV für analoges Fernsehen oder YCbCr für digitales. Die Helligkeiten eines Bildes werden mit höherer räumlicher Auflösung erfaßt als die beiden Farbwerte. Es werden mehr Helligkeits- als Farbpunkte unterschieden und kodiert, auch können für einzelne Farbbereiche unterschiedlich hohe Genauigkeiten bei der Kodierung verwendet werden. Schließlich kann noch berücksichtigt werden, daß das Auge feine Abstufungen in der Nähe starker Helligkeits- und Farb-Kontraste nicht oder kaum wahrnimmt. Außerdem werden Annahmen über die Bildinhalte getroffen: daß es sich um natürliche Bilder handelt, die unter anderem oft von Flächen mit weichen Farb- und Helligkeitsübergängen dominiert werden; hierauf wird aber erst wieder im Kontext der digitalen Videokodierung in Abschnitt 5.5 eingegangen.

Für Bewegtbilder ist eine weitere Eigenschaft des menschlichen Auges bedeutsam: die zeitliche Auflösung bei der Wahrnehmung einzelner Bilder. Ab einer kritischen Frequenz, die auch als Verschmelzungsfrequenz bezeichnet wird, nimmt das Auge Bilder nicht mehr einzeln, sondern als Bewegtbild wahr. Genau diese Eigenschaft macht man sich bei der Erfassung und Wiedergabe von Bewegtbildern zunutze. Ein natürlicher, zeitlich kontinuierlicher Vorgang, wie etwa die fließende Bewegung eines fliegendes Balls oder einer laufenden Person, wird in kurzen Zeitabständen abgetastet und aufgezeichnet. Dabei entsteht eine Folge von Einzelbildern, wie sie auf einem Filmstreifen deutlich erkennbar sind. Je niedriger die Abtastfrequenz ist, desto größer sind die Unterschiede zwischen aufeinanderfolgenden Bildern und desto ruckartiger ist der wiedergegebene Bewegungsablauf. Eine niedrigere Abtastfrequenz bedeutet beim Film aber auch einen geringeren Verbrauch an Filmmaterial. Umgekehrt führt eine höhere Abtastrate zu geringeren Unterschieden zwischen aufeinanderfolgenden Bildern und somit zu einer flüssigeren Wiedergabe eines Bewegungsablaufs — aber auch zu einem höheren Verbrauch an Filmmaterial.

Unabhängig von den Einschränkungen des menschlichen Auges gilt für das Abtasten eines kontinuierlichen Signals das Abtasttheorem: dieses besagt, daß eine diskrete Zerlegung (hier in eine Bildfolge) eines kontinuierlichen Signals (in diesem Fall der flüssigen Bewegung) nur dann korrekt erfaßt wird, wenn die Abtastfrequenz mindestens doppelt so hoch ist wie die “Frequenz” der schnellsten Bewegung, die richtig dargestellt werden soll. Die halbe Abtastfrequenz wird auch als Nyquist-Frequenz bezeichnet.

Bei den meisten natürlichen Bewegungsabläufen ist deren Erfassung unproblematisch, weil etwa die Bewegung einer Person, eines Tieres oder eines Fahrzeugs in eine Richtung keine Fehlinterpretation zuläßt. Augenfällig wird die Verletzung des Shannon-Theorems aber beispielsweise bei sich drehenden Rädern, die sich im Film oftmals rückwärts zu drehen scheinen.

Beispiel: Ein Rad mit einem Durchmesser von 50cm vollführt bei einer Geschwindigkeit von knapp 60km/h etwa 10 Umdrehungen pro Sekunde; dieses Rad besitze eine markante Speiche (die z.B. als einzige eine Farbe hat, die sich vom Hintergrund unterscheidet). In diesem Fall nimmt das Rad pro Umdrehung jeweils zwei ununterscheidbare Positionen ein, nämlich jeweils nach einer halben Umdrehung, so daß sich insgesamt 20 ununterscheidbare Zustände pro Sekunde ergeben. Um die Drehbewegung des Rades — daß es sich dreht und in welche Richtung es sich dreht — korrekt zu erfassen, muß die Abtastfrequenz mindestens doppelt so hoch sein, wie die Frequenz der Wiederkehr eines ununterscheidbaren Zustandes. (Achtung: bei einem Rad ist bei exakt doppelt so hoher Frequenz die Drehrichtung nicht zu ermitteln; hierfür muß die Abtastfrequenz mehr als doppelt so hoch sein). Im obigen Fall müßte eine Filmaufnahme also mehr als 40 Bilder pro Sekunde liefern, um eine korrekte Darstellung zu ermöglichen — unabhängig davon, ob das menschliche Auge überhaupt in der Lage ist, diese Unterscheidungen noch wahrzunehmen. Der Zusammenhang zwischen einer Drehbewegung eines Rades mit einer markanten Speiche und der Abtastrate ist in Abbildung 1 dargestellt. In der obersten Zeile sind mehrere Zustände eines Rades dargestellt, von denen zwei nicht unterscheidbar sind. In den Zeilen darunter ist das für den Betrachter eines Films bei verschiedenen Abtastfrequenzen sichtbare Bild skizziert. In den Zeilen 1 und 2 scheint das Rad stillzustehen, in Zeile 3 nimmt der Betrachter ein Rückwärtsdrehen war. In Zeile 4 schließlich kann der Betrachter die Bewegung des Rads subjektiv als Vor- oder Rückwärtsdrehung interpretieren.

Abbildung 1. Zusammenhang zwischen Abtastrate und Effekten bei der Wiedergabe

Bei Filmaufnahmen orientiert man sich am menschliche Auge. Dabei sind zwei wesentliche Parameter des Auges für die natürliche Wahrnehmung eines Films von Bedeutung. Zunächst muß der Film, wie oben bereits angesprochen, mit einer hinreichend hohen zeitlichen Auflösung aufgenommen werden, daß das menschliche Auge die präsentierte Bildfolge nicht mehr als eine Aneinanderreihung von Einzelbildern erkennt, sondern eine kontinuierliche Bewegung wahrnimmt. Konkret bedeutet dies, daß die Abtastrate nicht höher auflösend sein muß als die Wahrnehmungsfähigkeit des menschlichen Auges. Die Verschmelzung von Einzelbildern zu einem Bewegtbild setzt beim Menschen bei etwa 20 Bildern pro Sekunde ein (Bewegungs-Verschmelzungsfrequenz); für die Aufnahme von Kinofilmen wird daher mit einer Frequenz von 24 Bildern pro Sekunde gearbeitet. Ein solcher Kinofilm von rund zwei Stunden Länge ist dann etwa 3,5 km lang.

Zum zweiten muß ein Film so wiedergegeben werden, daß er vom Betrachter auch gleichmäßig wahrgenommen wird. Da ein Film als eine Folge von Einzelbildern vorliegt, wird im Kino jeweils ein Bild projiziert, dann wird die Lichtquelle kurz abgedunkelt und der Film zum nächsten Bild transportiert, das dann im nächsten Schritt projiziert wird. Das bedeutet, daß auf der Leinwand eine rasche Aufeinanderfolge von kurzen Einzelbildern und kurzen Dunkelphasen “zu sehen” ist. Bei jedem Bild wird das Auge des Betrachters kurz stimuliert, diese Wahrnehmung klingt anschließend nach kurzer Zeit ab. Ist die Bildfrequenz sehr gering (z.B. weniger als fünf Bilder pro Sekunde), nimmt der Betrachter die Einzelbilder wahr; bei steigender Frequenz sind die Einzelbilder nicht mehr getrennt wahrnehmbar, und es entsteht für den Betrachter ein Flimmern. Erst ab einer Flimmer-Verschmelzungsfrequenz (engl. Critical Flicker Fusion, Flicker Fusion Frequency) ist die Bildfolge so rasch, daß für den Betrachter der Eindruck einer gleichmäßigen, flimmerfreien Projektion entsteht. Diese Frequenz ist abhängig von der Lichtstärke, mit der die Bildfolge dem Auge präsentiert wird: je heller das Bild, desto größer ist die Verschmelzungsfrequenz. Kinos werden nicht zuletzt abgedunkelt, damit der Film mit möglichst geringer Helligkeit projiziert werden kann. Beim Kinofilm setzt der Bewegungs-Verschmelzungseffekt bei etwa 48 Bildern pro Sekunde ein. Bei helleren Bildfolgen ist die Flimmer-Verschmelzungsfrequenz weitaus höher, was ein Grund für das Flimmern von hellen Flächen im Fernsehen ist. Darum sind moderne Computermonitore (und die Grafikkarten) so ausgelegt, daß sie Bildwiederholraten von 80 Hz oder mehr erreichen. Auch die Grundfarbe des Bildes spielt eine Rolle: das menschliche Auge reagiert am empfindlichsten auf grünes Licht, und dementsprechend ist auch bei grünem Grundton die Verschmelzungsfrequenz höher als bei anderen Farben.

Ein Film wird mit 24 Bildern pro Sekunde aufgenommen, weil dies für die Bewegungswahrnehmung des Menschen ausreichend ist. Da die Flimmer-Verschmelzungsfrequenz beim Kinofilm aber erst bei etwa 48 Hz beginnt, wird bei der Wiedergabe jedes Bild zweimal angezeigt, so daß sich insgesamt die erforderlichen 48 Bilder pro Sekunde ergeben. Die Lichtstärke der Projektion im Kino wird so gewählt, daß ein genau zweimaliges Anzeigen jedes Bildes ausreicht, um möglichst einfache technische Lösungen zu gestatten. Einige Projektoren zeigen auch jedes Bild dreimal an, woraus sich eine Wiedergabe mit 72 Bildern pro Sekunde ergibt und damit das Flimmern auch hellerer Flächen vollkommen verschwindet; allerdings ist die Helligkeitsausbeute der Projektion dann geringer, und die Projektoren werden aufwendiger, so daß dieses Verfahren weitaus seltener eingesetzt wird.

Der Filmstreifen eines Kinofilms hatte ursprünglich bereits die heute noch dominante Breite von 35mm; zwar wurden zwischenzeitlich auch Filmbreiten von 65mm und 70mm verwendet, diese konnten sich jedoch nicht durchsetzen. Lediglich die IMAX-Kinos verwenden heute Filme mit 70mm Breite, nutzen jedoch ein anderes Aufzeichnungsformat als die frühen 70mm-Varianten. Der 35mm-Film sieht grundsätzlich ein Bildseitenverhältnis (engl. aspect ratio) von rund 1,33:1 (Breite:Höhe) vor, das sich zum Standard entwickelte. Von der verfügbaren Fläche pro Bild wurde jedoch in der Bildhöhe weniger genutzt als in der Breite, so daß sich im Laufe der Zeit eine Reihe von Formaten auf der Basis des 35mm-Films herausgebildet hat: zunächst 1932 das Academy-Format mit einem Bildseitenverhältnis von 1,37:1. Später wurde stärker der Tatsache Rechnung getragen, daß das Blickfeld des Menschen aufgrund der Augenstellung deutlich breiter ist als hoch, so daß bei Ausnutzung fast derselben Bildbreite die Formate immer weniger der verfügbaren Höhe nutzen: so sind Breitwand-Formate mit Bildseitenverhältnissen von 1,66:1 und später 1,85:1 entstanden. In diesen 35mm-Formaten und den begleitenden Überlegungen haben auch die Fernsehformate ihren Ursprung: 4:3 entspricht 1,33:1; 16:9 entspricht 1,78:1 (siehe Abschnitt 5.3). In den 1950er Jahren wurde ein Format mit einem Seitenverhältnis von 2,35:1 entwickelt, das Cinemascope, das bis heute im Einsatz ist. Bei Cinemascope erfolgt die Aufnahme über eine spezielles Verfahren, das anamorphotische Verfahren. Dabei wird ein Bild für die Aufnahme mittels spezieller optischer Linsen auf einem 35mm-Film in der Breite fast halbiert (gestaucht), in der Höhe jedoch unverändert gelassen; für die Wiedergabe findet im Projektor die inverse Abbildung statt. Eine Übersicht der Filmformate ist in Abbildung 2 zusammengestellt.

Anmerkung

Beim Einsatz des anamorphotischen Verfahrens findet offensichtlich eine Form von Kompression statt: auf der gleichen Filmbreite wird fast die doppelte Bildbreite aufgezeichnet; dies geht zu Lasten der Genauigkeit, da die Anzahl der unterscheidbaren Bildelemente pro Zeile unverändert bleibt; siehe auch nächster Absatz.

Abbildung 2. Übersicht über verschiedene Filmformate

Die Beschichtung des Filmmaterials orientiert sich ebenfalls am menschlichen Auge und ist für die möglichst naturgetreue Wiedergabe des sichtbaren Lichts ausgelegt (Lerneinheit 2). Die Bildauflösung, die mit 35mm-Film erzielbar ist, hängt unter anderem mit der Lichtempfindlichkeit des Films zusammen. Durch technische Fortschritte wächst die Auflösung bei gleicher Lichtempfindlichkeit aber stetig. Ein heutiger 35mm-Film hat eine horizontale Auflösung von etwa 4.000 bis 5.000 Punkten; bei einem Bildseitenverhältnis von 4:3 ergibt sich hieraus eine vertikale Auflösung von 3.000 bis 3.750 Punkten, so daß ein Einzelbild aus 12 bis 18 Millionen Bildpunkten besteht. Ginge man von einer reinen RGB-Kodierung eines solchen Einzelbildes ohne Kompression aus und verwendete man jeweils ein Byte für den Rot-, Grün- und Blauanteil, so ergäbe sich ein Datenvolumen von 36 bis 54 MByte pro Bild und von 6 bis 9 Terabytes für einen zweistündigen Spielfilm. Zum Vergleich: 1 Terabyte = 1024 GByte, eine DVD faßt je nach Format 4,7 bis 17 GByte. Für ein kontinuierliches Abspielen ergäbe sich eine Datenrate von 7 bis 10 GBit/s. Selbst eine verlustbehaftete 10:1-Kompression, wie sie etwa mit JPEG erzielt werden kann, erscheint hier unzureichend.

Zusammenfassend läßt sich festhalten, daß beim Kinofilm ein Bewegungsablauf als eine Folge von Einzelbildern festgehalten wird. Die Anforderungen an die Abtastrate ergeben sich einerseits aus den Eigenschaften der menschlichen Wahrnehmung, andererseits aus der Genauigkeit, mit der die Bewegungsabläufe erfaßt werden sollen. In den meisten Fällen sind Filmaufnahmen unmittelbar für den menschlichen Betrachter bestimmt, und daran orientieren sich auch die technischen Parameter bei der Aufnahme. Im Rahmen dieser Qualifikationseinheit ist ebenfalls nur die unmittelbare Wahrnehmung durch den menschlichen Betrachter von Interesse. Wir werden daher auf Filmaufnahmen zur Analyse technischer oder natürliche Vorgänge und den damit verbundenen völlig anderen Anforderungen an zeitliche und räumliche Auflösung wie auch das erfaßte elektromagnetische Spektrum (etwa ultraviolettes Licht, Infrarot) nicht weiter eingehen, denn hier sind nachträgliche Konvertierungen (z.B. Verlangsamung der Wiedergabe, Vergrößerung von Bildauschnitten, Falschfarbendarstellung nicht sichtbarer Spektralbereiche) erforderlich, um die Informationen einem menschlichen Betrachter zugänglich zu machen.

Kommentare (0)

Ihr Kommentar

Name