Konzepte Content-Repräsentation & Markup-Sprachen

6.1 Auszeichnung von Dokumentbestandteilen

Die vorhergehenden Lerneinheiten haben gezeigt, daß effiziente Datenformate zur Kodierung von Inhaltsinformationen oftmals die besonderen Eigenschaften der jeweiligen Informationen, des Anwendungsgebiets und zum Teil sogar Hintergrundwissen über biologische Prozesse (beispielsweise im Falle der Farbwahrnehmung des menschlichen Auges) einbeziehen. Der Einsatz spezialisierter Kodierungen wirkt sich vor allem bei der Datenübertragung über Kommunikationsnetze positiv aus, da zum einen eine geringere Bandbreite benötigt wird und zum anderen auf dem Empfängersystem oftmals eine schnellere Darstellung der Inhalte möglich ist.

Im praktischen Einsatz müssen jedoch häufig mehrere Arten von Informationen berücksichtigt werden, die unterschiedliche Kodierungen erfordern. So besteht eine Weblearning-Lerneinheit wie diese beispielsweise zu einem großen Teil aus textuellen Daten, kombiniert mit Bitmap-Grafiken und einigen fotografischen Darstellungen. Damit ein Kursteilnehmer nun nicht gezwungen ist, erst einmal alle Bestandteile einer Lerneinheit einzeln auf seinen Rechner zu übertragen und dann an der richtigen Stelle im Text die zugehörigen Abbildungen zu suchen, um sie anschließend mit einem dafür geeigneten Anwendungsprogramm betrachten zu können, werden diese verschiedenen Teile zu einem komplexen Dokument zusammengefaßt. Dadurch wird es möglich, einen Abschnitt aus dem Kurs unter einem eindeutigen Namen anzusprechen und automatisch alle zugehörigen Texte und Abbildungen zu beziehen. Bei der Anzeige auf einem geeigneten Ausgabemedium — sei es ein Computer-Monitor, Papier oder auch das Display eines Mobiltelefons — wird typischerweise ein Dokumentkontext erzeugt, in dem alle Informationen angezeigt werden. Im Fall eines Computer-Monitors oder der Ausgabe über einen grafikfähigen Drucker werden Abbildungen häufig im Fließtext eingebettet wie im Buchdruck üblich.

Wie eingangs bereits angedeutet, liegen die Bestandteile der Dokumente allerdings in unterschiedlichen Kodierungen vor, so daß sie nicht als zusammenhängende Datei in einem gemeinsamen Format gespeichert sein können. Es ist daher notwendig, eine Art Rahmenformat zu schaffen, mit dem sich die Beziehung der Dokumentbestandteile untereinander beschreiben läßt. Unter den zahlreichen existierenden Formaten, die für diesen Zweck entwickelt wurden, nimmt die im World Wide Web (WWW) verwendete Hypertext Markup Language (HTML) eine besondere Rolle ein: Sie bildet eine wichtige Grundlage des weltweit verfügbaren Informationssystems, das auf der universellen Zugreifbarkeit von Ressourcen — identifizierbaren Objekten als Informationsträger innerhalb dieses Systems — über das Internet basiert. Ermöglicht wird dies im wesentlichen durch die syntaktische Trennung der Inhaltsinformationen von Angaben über das Layout.

Um den Inhalt eines solchen Dokuments auf einem Ausgabegerät mit Rücksicht auf die unterschiedliche logische Bedeutung seiner Bestandteile für den gesamten Text ansprechend darstellen zu können, wird die logische Struktur des Dokuments explizit gekennzeichnet, d.h. die Inhaltsinformationen des Dokuments werden mit zusätzlichen Angaben über die Dokumentstruktur versehen. Während des Darstellungsprozesses können diese Auszeichnungen (engl.: “Markup”) herangezogen werden, um die verschiedenen Strukturelemente auf dem jeweiligen Ausgabegerät für Betrachter unterscheidbar zu machen — etwa durch Kursivschrift zur Verdeutlichung betonter Passagen, sofern die Ausgabe beispielsweise auf einem Computer-Monitor oder auf Papier erfolgt.

Der Begriff Markup ist in Anlehnung an die englische Bezeichnung Mark-up für handgeschriebene Korrekturanmerkungen im Buchdruck entstanden (siehe Abbildung 1). Die Grundidee besteht darin, Dokumente mit zusätzlichen Informationen anzureichern, um nachfolgende Verarbeitungsschritte genauer steuern zu können.

Abbildung 1. Korrekturanmerkungen für einen Setzer (angelehnt an DIN 16511)

Mit der Zeit haben sich verschiedene Arten von Auszeichnungssprachen (Markup Languages) herausgebildet, die je nach Anwendungsgebiet sehr unterschiedliche Ausdrucksmöglichkeiten bieten. Zur Klassifizierung wird häufig das Abstraktionsniveau herangezogen. Eine gängige Abgrenzung unterscheidet zwischen prozeduralem und deskriptivem Markup:

Prozedurales Markup

Analog zu prozeduralen Funktionsaufrufen in imperativen Programmiersprachen beschreibt Markup in einer prozeduralen Auszeichnungssprache einen Zustandsübergang im Sprachinterpreter. Im allgemeinen wird mit der Auswahl eines bestimmten (prozeduralen) Vokabulars bereits der weitere Verarbeitungsprozeß festgelegt, da dieser auf die vorhandenen Primitiven abgestimmt sein muß. So könnte ein Seitenvorschub in einem Drucker beispielsweise mit dem dezimalen Zeichencode 12 symbolisiert werden. Andere Zeichencodes — zum Teil auch komplexere Folgen mit variablen Parametern — könnten Kursivschrift ein- oder ausschalten usw. Für viele dieser “Kommandos” ist der erzielte Effekt nur unter Berücksichtigung des aktuellen Zustands eindeutig vorhersehbar.

Deskriptives Markup

Die Auszeichnungen sind beschreibend, d.h. es werden zusätzliche Informationen über die Rolle bestimmter Teile des Dokuments hinzugefügt. Eine besondere Form des deskriptiven Markup ist die Verwendung logischer Dokumentauszeichnungen, deren konkrete Bedeutung vom jeweiligen Anwendungsgebiet abhängig ist. Ein logisch ausgezeichnetes Dokument kann nur verarbeitet werden, wenn die Semantik der verwendeten Bezeichner bekannt ist. So könnten die Absätze in einem Buch z.B. als Absatz ausgezeichnet sein. Während des Druckprozesses werden dann alle Einstellungen für den Druck eines zusammenhängenden Textblocks vorgenommen. Dazu gehören im allgemeinen das Auswählen der richtigen Schriftart und -größe, ein angemessener Abstand zum vorhergehenden Absatz usw.

In den folgenden Abschnitten soll nun ein kurzer Einblick in diese verschiedenen Arten der Dokumentauszeichnung gegeben werden. Die Vor- und Nachteile dieser Mechanismen werden diskutiert und einige typische Anwendungsgebiete vorgestellt. Besonderes Augenmerk liegt für den Rest der Qualifikationseinheit allerdings auf der logischen Dokumentauszeichnung im Sinne der obigen Definition, da sich dieser Ansatz für komplexe Informationssysteme als besonders gut geeignet erwiesen hat.

Kommentare (0)

Ihr Kommentar

Name