Konzepte Content-Repräsentation & Markup-Sprachen

8.4 XML Information Set

Die verschiedenen Ansätze zur Identifikation der im Kontext einer Anwendung signifikanten Bestandteile eines XML-Dokuments führten dazu, daß sich eine Grundmenge herausgebildet hat, die einem Anwendungsprogramm in jedem Fall vom XML-Parser zur Verfügung gestellt werden müssen. Während offensichtlich die Inhaltsinformationen, Elemente und Attribute zu dieser Menge gehören, bestand lange Zeit Uneinigkeit darüber, wie viele Informationen über das Markup wirklich benötigt werden. Einen ersten Schritt zur Vereinfachung bildete bereits das ESIS, das sich für einige Anwendungen jedoch als zu beschränkt erwiesen hat. Das andere Extrem — Groves — zeigt, daß ein zu umfassender Ansatz ebenfalls zum Scheitern verurteilt ist.

Vor dem Hintergrund der konkreten Definitionen des DOM sowie unabhängiger Entwicklungen wie SAX ließ sich jedoch sehr schnell eine sinnvolle Menge von Information Items (“Informationsbestandteilen”) festlegen, die alle Inhalts- und Strukturinformationen eines konkreten XML-Dokuments umfassen. Die Menge aller Information Items des Dokuments wird als Information Set bezeichnet und umfaßt alle Informationen, die einer Anwendung vom XML-Parser zur Verfügung gestellt werden müssen.

Für die Definition der zur Verfügung stehenden Information Items wurden wohlgeformte Dokumente zugrunde gelegt, um Sonderfälle bei der Betrachtung von gültigen und wohlgeformten Dokumenten zu vermeiden. Das bedeutet, daß Angaben aus der Dokumenttyp-Definition weitgehend aus dem Information Set ausgeschlossen werden. Unter den Ausnahmen sind insbesondere Angaben über Attributtypen und Vorgabewerte, die Kennzeichnung von Whitespace characters (vgl. Lerneinheit 7) und die Dokumenttyp-Deklaration selbst zu erwähnen. Des weiteren sind die Namespace-Bindungen in den Information Items von Elementen und Attributen vorhanden. Sie dienen im wesentlichen dazu, global eindeutige Bezeichner für Elementtypen zu definieren. Näheres dazu ist in der nächsten Lerneinheit zu finden, in der die Möglichkeiten zur Wiederverwendung von Dokumentbestandteilen vorgestellt werden.

Die zur Verfügung stehenden Information Items sind stark an das Document Object Model angelehnt. Allerdings wird die Definition auf abstrakter Ebene vorgenommen und legt weder eine Schnittstellenbeschreibung noch eine konkrete Implementierung nahe. Ein Information Set legt somit fest, was auf der Ebene der Anwendungsebene als Bestandteil eines Dokuments sichtbar ist. Dazu werden elf Arten von Information Items mit unterschiedlichen Eigenschaften spezifiziert, die hier jedoch nicht im einzelnen aufgeführt werden sollen. Sie sind bei Bedarf in der W3C-Empfehlung XML Infoset nachzulesen.

Kommentare (0)

Ihr Kommentar

Name