Konzepte Content-Repräsentation & Markup-Sprachen

1.2 Begriffe

In diesem Abschnitt werden einige grundlegende Begriffe definiert, die für das Verständnis der nachfolgenden Abschnitte wichtig sind.

Buchstabe

Ein Buchstabe ist ein Bestandteil eines Alphabets (siehe Alphabet). Bei Buchstaben wird zwischen Vokalen (Selbstlaute) und Konsonanten (Mitlaute) unterschieden — eine Klassifizierung, die für die Aussprache von Wörtern von Bedeutung ist. Die deutsche Sprache kennt neben den Buchstaben A-Z des lateinischen Alphabets noch die Umlaute Ä, Ö und Ü. Diese Buchstaben gibt es jeweils in Groß- und Kleinschreibung; dazu kommt noch das nur in Kleinschreibung vorhandene ß.

Im Zusammenhang mit Zeichensätzen wird oft der allgemeinere Begriff Schriftzeichen (kurz Zeichen) verwendet, der auch andere Zeichen einschließt (siehe unten).

Alphabet

Im Kontext von natürlichen Sprachen wird unter einem Alphabet eine Menge von Buchstaben (siehe Buchstabe) verstanden. Die Buchstaben eines Alphabets können kombiniert werden, um verschiedene Wörter zu bilden. Etwas allgemeiner betrachtet bezeichnet man eine Menge von Symbolen als ein Alphabet. Wenn wie bei Wörtern mehrere Symbole zur Bildung von Symbolketten herangezogen werden können, gibt die Anzahl der Symbole eines Alphabets und die Maximallänge der Symbolketten die Menge der theoretisch erzeugbaren Symbolketten vor.

Idealisiert betrachtet, wird bei vielen natürlichen Sprachen jeder Einzellaut durch ein eigenständiges Zeichen des Alphabets dargestellt. Das trifft allerdings auf die meisten der auf dem lateinischen Alphabet basierenden Sprachen nur teilweise zu. So werden zum Beispiel in der deutschen Sprache auch bestimmte Laute durch die Veränderung bzw. durch die Kombination von Vokalen gebildet (Umlaute, "eu").

Ziffer

Eine Ziffer ist ein Zeichen, das für die Notation von Zahlenwerten verwendet wird. Verschiedene Schriftsysteme sehen dafür besondere Zeichen vor. In der deutschen Sprache wird das arabische Zahlensystem verwendet, für das die Ziffern 0,1,2,3,4,5,6,7,8,9 definiert sind.

Das arabische Zahlensystem ist ein dezimales Zahlensystem, das zu den Positions- bzw. Stellenwertsystemen gehört. Der Wert einer Ziffer für die Berechnung einer Zahl hängt in diesem Zahlensystem außer von dem Ziffernwert selbst auch von der Position der Ziffer in der Zahl ab.

Andere Schreibweisen für Zahlen, wie zum Beispiel die römischen Zahlen im klassischen Rom, verwenden keine eigenständigen Zahlenzeichen, sondern greifen auf Zeichen des Alphabets zurück. Das System der römischen Zahlen ist ein sogenanntes Additionssystem, das heißt, die einzelnen Ziffern haben immer den gleichen Wert, unabhängig von der Position, an der sie innerhalb einer Zahl stehen (tatsächlich gibt es beim römischen Zahlensystem einige Ausnahmen von diesem Prinzip).

Sonderzeichen

Zusätzlich zu den Buchstaben (siehe Buchstabe) und den Ziffern eines Schriftsystems werden oft noch weitere Zeichen benötigt, um Texte in dieser Sprache notieren zu können. Hier sind unter anderem Interpunktionszeichen (Satzzeichen) zu nennen — in der Deutschen Sprache sind das unter anderem Punkt (Satzendepunkt), Komma, Semikolon, Doppelpunkt, Ausrufezeichen und Fragezeichen.

Das Leerzeichen, das die Trennung zwischen Wörtern kennzeichnet, wird oft ebenfalls zur Klasse der Sonderzeichen gerechnet.

Schriftzeichen (Zeichen)

Die Menge aller benötigten Buchstaben (Buchstabe), Ziffern (Ziffer) und Sonderzeichen (Sonderzeichen) eines Schriftsystems bildet die Menge der Schriftzeichen.

Manchmal werden die Symbole eines Schriftsystems auch als Glyphs bezeichnet, wobei mit dem Begriff Schriftzeichen dann die bei einer Informationsübergabe repräsentierten Informationseinheiten benannt werden, die stellvertretend für die eigentlichen Glyphs verwendet werden. In den uns bekannten Schriftsystemen aus der westlichen Welt steht im allgemeinen jedes Schriftzeichen für genau einen Glyph. Eine Ausnahme bilden sogenannte Ligaturen — Glyphs, die in einigen Schriftarten aus der Kombination mehrerer Zeichen gebildet werden (z.B. fi-Ligaturen). Ligaturen werden in Abschnitt 1.4 genauer erläutert.

Zeichensatz

Allgemein kann man einen Zeichensatz als Menge von verwendbaren Zeichen eines Schriftsystems bezeichnen. Um Schriftzeichen eines Schriftsystems in einem Computersystem verarbeiten zu können, wird eine Abbildungsvorschrift definiert, nach der jedes Zeichen einem Zahlenwert zugeordnet wird und umgekehrt. Abbildung 3 zeigt so eine Abbildung von Zeichen auf Zahlenwerte anhand eines einfachen Zeichensatzes für das lateinische Alphabet. Die Zahlenwerte ergeben sich dabei aus der Zeilennummer und der Spaltennummer. Dem Zeichen Z würde hier beispielsweise der Zahlenwert 25 zugewiesen (Informatiker beginnen beim Durchnumerieren meist bei der 0, nicht erst bei der 1). Der Zahlenwert für ein Zeichen eines Zeichensatzes wird oft auch Code-Symbol genannt. Ein Zeichensatz wird dann auch als Code bezeichnet.

Darüber hinaus wird im Zusammenhang mit Zeichensätzen noch der Begriff Repertoire verwendet. Ein Repertoire ist eine Menge unterschiedlicher Zeichen, wobei noch keine Abbildung auf Zahlenwerte angenommen wird. Ein Repertoire wird im allgemeinen so definiert, daß Zeichen benannt werden, eine Bedeutung geliefert wird (wo möglich) und eine beispielhafte graphische Darstellung erfolgt. Die Menge der Zeichen eines Repertoires kann durchaus größer als die Menge der Code-Symbole in einem Zeichensatz sein, wenn z.B. zu einem Zeitpunkt nur eine Untermenge des Repertoires Code-Symbolen zugewiesen ist. Code-Erweiterungstechniken, die dies ermöglichen, werden in Abschnitt 1.3 genauer erläutert.

Abbildung 3. Vereinfachte Zeichensätze für das lateinische Alphabet

0 1 2 3 4 5 ... 25
A B C D E F ... Z


	  
0 1 2 3 4 5 6 7 8 9
0 A B C D E F G H I J
1 K L M N O P Q R S T
2 U V W X Y Z

Abhängig davon, wie groß der Wertebereich für die Zahlenwerte ist, kann eine unterschiedlich große Anzahl von Zeichen berücksichtigt werden. Es gibt auch Zeichensätze, die sehr viele Schriftzeichen enthalten, so z.B. die Schriftzeichen mehrerer Schriftsysteme. Allerdings ist das mit den früher häufig verwendeten 7-Bit- oder 8-Bit-Zeichensätzen im allgemeinen nicht möglich, so daß viele Zeichensätze mit begrenztem Repertoire entwickelt wurden, die z.B. nur die Schriftzeichen einer Sprache oder eines Kulturkreises beinhalten. Auf Systemen, die entsprechende Zeichensätze verwenden, müssen dann gegebenenfalls mehrere Zeichensätze verwendet werden, wenn Dokumenten mit Zeichen aus verschiedenen Schriftsystemen bearbeitet werden sollen.

Auf Zeichensätze wird in Abschnitt 1.3 genauer eingegangen.

Kodierformate

Zeichensätze sind Zuordnungen von Zahlenwerten zu Schriftzeichen, die einem Computersystem die Verarbeitung von Textinformationen ermöglichen. Für den Austausch von mit Computersystemen erzeugten Textdokumenten wird häufig die Repräsentation des Dokuments im Speicher des Computers unverändert in eine Datei geschrieben oder über ein Rechnernetz verschickt. Da es aber viele verschiedene Computersysteme mit verschiedenen Zeichensätzen gibt, werden für den Zweck des Austausches Textdokumente oft auch in besonderen Kodierungen dargestellt. Beispielsweise gibt es Zeichenkodierungen, um den Austausch von Dokumenten, die in einem 32-bit-Zeichensatz vorliegen, mit Systemen, die 8-Bit-Informationseinheiten verarbeiten, zu vereinfachen.

Abschnitt 1.3.8 stellt die wichtigsten Zeichenkodierungen vor.

Kommentare (0)

Ihr Kommentar

Name