Konzepte Content-Repräsentation & Markup-Sprachen

1.1 Einleitung: Textinformationen

In dieser Lerneinheit lernen Sie die Bedeutung grundlegender Begriffe wie Zeichensatz, Zeichenkodierung und Schriftart kennen und erfahren dabei, welche für die Erstellung von Textdokumenten relevanten Zeichensätze und Zeichenkodierungen es gibt.

Eine der wichtigsten Kulturtechniken der Menschheit ist die Aufzeichnung von Sprache in Schrift. Natürlich haben das Internet und das World Wide Web nichts an der Bedeutung dieser Kommunikationsform geändert; Content (der Inhalt) ist fast immer zu einem großen Teil textueller Natur. Deswegen wollen wir uns zu Beginn dieser Qualifikationseinheit zuallererst mit der digitalen Kodierung von Schrift beschäftigen.

Auf der Welt gibt es viele verschiedene Schriftsysteme, die teilweise viele Gemeinsamkeiten haben, sich aber auch in einigen wichtigen Punkten unterscheiden. Wenn man diese Gemeinsamkeiten und Unterschiede etwas systematischer untersucht, lassen sich einige grundlegende Kategorien finden, die auf die meisten bekannten Schriftsysteme anwendbar sind.

Ein Unterscheidungsmerkmal ist sicher die Anzahl und die Art der vorhandenen Schriftzeichen, die die elementaren Bestandteile eines Schriftsystems darstellen. Aus dem europäischen Sprachraum sind uns Sprachen bekannt, deren Schriftsysteme über eine relativ kleine Anzahl an Schriftzeichen verfügen, die jeweils mehr oder minder eindeutig für einen bestimmten Laut stehen. Beispiele solcher Sprachen sind lateinisch, griechisch und russisch. Bei der Niederschrift dieser Sprachen werden aus Kombinationen von Schriftzeichen Wörter gebildet, die wiederum zur Bildung von Sätzen benutzt werden. Die Schriftzeichen sind in diesen Sprachen Werte eines Alphabets — man sagt auch, diese Schriftsysteme sind alphabetisch aufgebaut. Offensichtlich ist also das verwendete Alphabet eine grundlegende Eigenschaft eines Schriftsystems.

Neben Buchstaben gibt es noch weitere Zeichen wie zum Beispiel Ziffern und Interpunktionszeichen wie Komma, Punkt, Semikolon und Doppelpunkt, die ebenfalls als Schriftzeichen bezeichnet werden. Trotzdem ist die Gesamtanzahl der Zeichen im Vergleich zu anderen Sprachen recht klein. Aus dem asiatischen Sprachraum sind uns Schriftsysteme bekannt, bei denen es sehr viele Zeichen gibt, wobei ein Zeichen nicht ein elementarer Bestandteil von Wörtern ist sondern selbst ein Wort darstellt. Ursprung dieser Schriftsysteme ist die chinesische Schriftsprache Hanzi, die vor über 2000 Jahren entstanden ist. Viele Hanzi-Zeichen sind aus kleinen Piktogrammen entstanden, d.h., jedes Zeichen steht für einen Begriff und stellt diesen graphisch dar. Darüber hinaus können Zeichen auch mit anderen Zeichen kombiniert werden, um Wörter mit neuen Bedeutungen zu bilden. Einigen Hanzi-Zeichen sieht man noch an, daß sie sich aus Piktogrammen entwickeln haben. Man nennt solche Schriftsysteme ideographisch, im Gegensatz zu phonetischen Schriftsystemen, die Zeichen für die in der jeweiligen Sprache gebräuchlichen Laute vorsehen.

In den verschiedenen asiatischen Ländern wurden lokale Varianten von Hanzi abgeleitet und weiterentwickelt. Dabei wurden im Lauf der Zeit einige Hanzi-Zeichen vereinfacht bzw. aus dem Alphabet entfernt. Dies gilt vor allem für das bekannte japanische Schriftsystem Kanji. Die moderne Variante dieses Schriftsystems wurde im Jahr 1946 von der japanischen Regierung verabschiedet und sollte als grundlegendes Schriftsystem dienen. Zu diesem Zweck wurde das Alphabet zunächst auf 1850 Kanji begrenzt. Das historische Kanji-Alphabet umfaßt dagegen mehr als 50000 verschiedene ideographische Zeichen. Abbildung 1 stellt einige Kanji-Zeichen exemplarisch dar. Die Zusammensetzung dieser Zeichen steht für die in Japan sehr verbreiteten Verkaufsautomaten für Getränke, Snacks und ähnliche Dinge.

Abbildung 1. Einige einfache Kanji-Zeichen

Im Japanischen gibt es übrigens neben Kanji noch weitere Schriften (Hiragana und Katakana, zusammen Kana genannt), bei denen die Zeichen für Silben stehen und Wörter durch das Zusammensetzen dieser Silben gebildet werden.

Neben Art und Anzahl der Schriftzeichen selbst gibt es bei Schriftsystemen noch andere Unterscheidungsmerkmale. Hier sei als Beispiel die Schreibrichtung genannt. In der deutschen Sprache schreiben wir Wörter, indem wir Buchstaben in einer bestimmten Richtung — von links nach rechts — aneinander reihen. Mehrere Wörter bilden eine Zeile und wenn deren Ende erreicht ist, beginnt man eine neue Zeile unterhalb der vorherigen. In asiatischen Schriftsystemen wurde früher dagegen auf Schriftrollen von oben nach unten und dann von rechts nach links geschrieben. Im Arabischen wird von rechts nach links geschrieben, und Zeilen werden untereinander angeordnet. (Arabisch ist ebenso wie Lateinisch ein alphabetisch aufgebautes Schriftsystem, allerdings hat die Schrift besondere Regeln für die unterschiedliche Darstellung von Zeichen je nach Position in einem Wort.)

Abbildung 2. Der Microsoft Internet Explorer beim Darstellen einer hebräischen Web-Seite

In Abbildung 2 sieht man, wie der Microsoft Internet Explorer eine hebräische Web-Seite (ein Veranstaltungskalender der Universität von Tel Aviv) darstellt und dabei die Zeilen von rechts nach links mit Zeichen füllt.

Anhand dieser Beispiele wird deutlich, daß sich Schriftsysteme teilweise deutlich unterscheiden. Diese unterschiedlichen Eigenschaften müssen berücksichtigt werden, wenn Texte in diesen Schriftsystemen von Computersystemen verarbeitet werden sollen. Zum Beispiel muß ein Texteditor wissen, wie die Schreibrichtung für das verwendete Schriftsystem ist und wie die Zeichen kodiert werden (das Thema Zeichenkodierung wird noch ausführlicher diskutiert).

Bevor die Verarbeitung von Textinformationen durch Computersysteme ausführlicher erläutert wird, ist es zunächst hilfreich, einige Aspekte über den Aufbau und die Funktionsweise von Computersystemen zu betrachten. Unter dem Begriff Computersystem versteht man im allgemeinen ein System, das nach der sogenannten von-Neumann-Architektur aufgebaut ist. Die von-Neumann-Architektur wurde 1946 von dem amerikanischen Wissenschaftler John von Neumann entwickelt und beschreibt die Grundsätze für den Aufbau von Rechenanlagen, nach denen auch heute noch nahezu alle Computersysteme aufgebaut sind. Eine wesentliche Eigenschaft der von-Neumann-Architektur ist das Konzept eines Speichers für Daten und auszuführende Operationen. Dieser Speicher sollte aus Speicherzellen fester Größe (diese werden häufig auch Speicherwörter oder einfach nur Wörter genannt) bestehen. Auf einzelne Speicherzellen kann wortweise in beliebiger Reihenfolge zugegriffen werden (random access memory). Operationen werden in dieser Architektur von einer Zentraleinheit (CPU, Central Processing Unit) ausgeführt. Die Operationen werden dabei im allgemeinen auf Daten aus dem Speicher ausgeführt, die zu diesem Zweck aus dem Speicher über dafür vorgesehene Transportleitungen in die CPU geladen werden. Dies geschieht bei der von-Neumann-Architektur nach dem Prinzip, daß ein Wort zur Zeit geladen wird — auch diese Eigenschaft trifft zumindest konzeptionell noch auf heutige Computersysteme zu.

Vor dem Hintergrund einer solchen Architektur wird deutlich, daß der Aufbau des Speichers, der (hier nicht weiter beschriebenen) Transportleitungen und der verwendeten CPU sehr stark voneinander abhängen: Wenn die CPU in der Lage ist, Operationen auf Wörtern einer bestimmten Größe auszuführen, ist es sinnvoll, Transportleitungen und den Aufbau des Speichers darauf abzustimmen.

Speicherwörter bestehen im allgemeinen aus einer für ein konkretes Computersystem festgelegten Anzahl von Bits, Speicherstellen, die zu einem bestimmten Zeitpunkt einen von zwei Werten (0 und 1) annehmen können. In der frühen Phase der Entwicklung von Computersystemen waren CPUs verbreitet, die Wörter mit einer Länge von 12, 18 oder 36 Bit verarbeiten konnten. Später waren Systeme mit 32-Bit-Architekturen verbreitet, bei denen die Daten Byte-weise (d.h. als Vielfache von 8-Bit-Einheiten) angesprochen werden konnten. In den 1970er Jahren begann die PC-Revolution mit 8-Bit-CPUs, die immer nur 8 Bit auf einmal verarbeiten konnten; im Minicomputerbereich waren zur gleichen Zeit 16-Bit-CPUs üblich, ebenfalls mit Byte-Adressierung der Daten. Heutige CPUs arbeiten im allgemeinen mit 32- oder 64-Bit-Wörtern und haben das Konzept der Byte-Adressierung beibehalten; entsprechend geben wir auch Speichergrößen immer in Vielfachen von Bytes an (Megabyte, Gigabyte, etc.).

Mit den 8 Bit eines Byte kann man 256 (2 hoch 8) verschiedene Zustände kodieren (2 Zustände — null oder eins — pro Bit). Das bedeutet, daß Computersysteme mit 8-Bit-CPUs Werte von 0 bis 255 effizient verarbeiten können — für größere Werte müssen dann mehrere 8-Bit-Wörter verwendet werden, was aufwendiger ist. Vor dem Hintergrund, daß frühere Computersysteme über geringere Taktraten (die Geschwindigkeit, mit der die CPU Operationen ausführt) und über weniger Hauptspeicher verfügten, als das bei heutigen Rechnern der Fall ist, ist es verständlich, daß beim Einsatz der Systeme auf einen möglichst ökonomischen Umgang mit den begrenzten Ressourcen Rechenzeit und Speicher Wert gelegt wurde: Für die Speicherung und Verarbeitung von Textinformationen wurde im allgemeinen stark darauf geachtet, daß die Zeichen eines Schriftsystems mit Werten kodiert werden konnten, die nicht mehr Speicherplatz benötigen als die adressierbare Einheit des jeweiligen Computersystems (also sehr oft 8 Bit). Tatsächlich lag der Wertebereich aus bestimmten Gründen, die in späteren Abschnitten dieser Lektion genauer erläutert werden, teilweise sogar nur bei 0 bis 127 (diese Zahlen können in 7 Bit dargestellt werden — 128 ist 2 hoch 7).

Für die Kodierung von Textzeichen in Computersystemen wird eine Abbildung von Zeichen auf Zahlenwerte verwendet (Details dazu in späteren Abschnitten). Wir haben gesehen, daß der dafür zur Verfügung stehende Wertebereich begrenzt ist — mit 256 (oder 128) verschiedenen Werten kann man zum Beispiel nicht einmal alle grundlegenden Zeichen des Schriftsystems Kanji sinnvoll kodieren. Vor diesem Hintergrund und angesichts der Tatsache, daß die Entwicklung der Computertechnologie zunächst in den westlichen Ländern (vor allem in den USA) erfolgte, ist es nicht verwunderlich, daß zunächst nur auf dem lateinischen Schriftsystem basierende Texte für die Verarbeitung in Computersystemen Verwendung fanden.

Unabhängig von dem konkreten Wertebereich, der für die Kodierung von Textinformationen zur Verfügung steht, fällt es nicht schwer, sich vorzustellen, daß sich im Lauf der Zeit verschiedene Kodierungsvarianten herausgebildet haben, die von den verschiedenen Herstellern von Computersystemen für ihre jeweiligen Systeme bevorzugt wurde. Manchmal unterschieden sich diese Zeichenkodierungen nur in bestimmten Bereichen (das heißt nur für wenige Zeichen), manchmal waren sie jedoch auch vollkommen inkompatibel. Um Austauschbarkeit von Textdokumenten zu ermöglichen, war es daher erforderlich, gemeinsame Konventionen zu entwickeln, die zumindest für den Dokumentenaustausch verwendet werden konnten. Diese Konventionen wurden im Lauf der Zeit weiterentwickelt — damit Textdokumente, die in der Vergangenheit erstellt worden sind, noch von Systemen, die neuere Kodierungen verwenden, verarbeitet werden können, mußte dabei auch immer noch das Gebot der (zumindest teilweisen) Rückwärtskompatibilität beachtet werden.

Man sieht also, daß es zum einen, wie oben dargelegt, eine Vielzahl von Kriterien gibt, nach denen Schriftsysteme klassifiziert werden können. Zum anderen findet man aber auch technische Grundbedingungen und Ergebnisse historischer und ökonomischer Entwicklungen vor, die die Fähigkeiten von Computersystemen, Textinformationen zu verarbeiten, stark beeinflussen. Durch die Entwicklung des World Wide Web (WWW) wurde die Anforderung, daß eine universelle Zugriffsmöglichkeit auf Textinformationen vorhanden sein soll, verstärkt in den Vordergrund gerückt: Selbstverständlich soll es mit HTML möglich sein, auch Dokumente auszuzeichnen, die nicht das lateinische Schriftsystem verwenden.

Es gibt also verschiedene Aspekte, die für die technische Umsetzung der Repräsentation von Textinformationen von Bedeutung sind: die diskutierten Unterschiede der auf der Welt existierenden Schriftsysteme, die technischen Beschränkungen durch vorhandene und früher verwendete Computersysteme und die immer wichtiger gewordene Forderung nach Internationalisierung. Diese Faktoren führen dazu, daß das Thema "Verarbeitung von Textinformationen" ein wenig vielschichtiger ist, als man vielleicht zunächst vermuten würde. In den folgenden Abschnitten dieser Lerneinheit wird erklärt, worauf man bei der Verarbeitung von Textinformationen im WWW achten muß.

  • Im Abschnitt 1.2 werden einige wichtige Begriffe wie zum Beispiel Zeichensatz und Schriftart definiert, die für das Verständnis der nachfolgenden Abschnitte wichtig sind.

  • In Abschnitt 1.3 wird erläutert, welche verschiedenen Zeichensätze es gibt, welche davon heute relevant sind und wie sie sich historisch entwickelt haben. Darüber hinaus werden in diesem Abschnitt verschiedene Verfahren zur Kodierung von Textinformationen erklärt.

  • Abschnitt 1.4 behandelt das Thema der Darstellung von Textinformationen auf Computersystemen.

Kommentare (0)

Ihr Kommentar

Name