Konzepte Content-Repräsentation & Markup-Sprachen

6.4 Die Standard Generalized Markup Language (SGML)

Etwa zehn Jahre nachdem der Einsatz logischer Auszeichnungssprachen für Dokumentationsaufgaben in Pilotprojekten bei verschiedenen Großunternehmen systematisch untersucht worden war und sich die Ergebnisse im praktischen Einsatz bewährt hatten, begannen sich unterschiedliche Standardisierungsgremien für diese Thematik zu interessieren. So initiierte das American National Standards Institute (ANSI) im Jahr 1978 ein Projekt zur Auswertung und Weiterentwicklung der bisherigen Erkenntnisse auf dem Gebiet der logischen Dokumentauszeichnung. Unter Einbeziehung der damaligen Hauptakteure in Projekten bei IBM und bei der Graphics Communications Association (GCA) sollte eine standardisierte Auszeichnungssprache entwickelt werden, die generisches Markup und die formale Definition von Dokumenttypen erlaubte.

Als Vorbild dienten insbesondere die Ergebnisse des GCA-Projekts GenCode unter der Leitung von William Tunnicliffe und die unter der Federführung von Charles F. Goldfarb bei IBM entwickelte Generalized Markup Language (GML). Frühzeitig legte man sich auch darauf fest, daß die neue Sprache eine Weiterentwicklung von GML sein sollte, und wählte daher den Namen Standard Generalized Markup Language (SGML). In Abschnitt 6.3 wurden bereits die wesentlichen Eigenschaften von GML und SGML aufgezeigt:

  • Dokumentauszeichnung mit generischem Markup (“tags”)

  • Formal definierte Dokumenttypen

  • Hierarchische Anordnung von Strukturelementen

Darüber hinaus entspricht die in den Beispielen verwendete Syntax im wesentlichen der GML-Notation. Lediglich die in Start- und Ende-Marken eingesetzte Namenskonvention ist nicht konform zu dem historischen Vorbild. Außerdem werden in SGML sehr häufig die Zeichen “<” und “>” zur Abgrenzung von Markup und Inhaltsinformationen verwendet. Grundsätzlich können jedoch beliebige Zeichen für diesen Zweck reserviert werden, z.B. die in GML verwendeten “.” und “:”. Ein Beispiel für eine Variante von GML wurde bereits in Abschnitt 6.3.2 gezeigt.

Noch bevor das ANSI eine SGML-Spezifikation verabschieden konnte, gab es im Jahr 1983 mit dem GCA-Standard 101-1983 einen Industrie-Standard für SGML. Während dieser in den Folgejahren fortgeschrieben wurde, trat neben die ANSI-Standardisierung nun auch die internationale Standardisierung in der ISO mit Goldfarb als Koordinator. Bereits zwei Jahre später, 1986, wurde SGML als ISO-Standard 8879 festgeschrieben — und das natürlich in SGML.

Schnell fanden sich mit der Association of American Publishers (AAP) und dem amerikanischen Militär [Computer-aided Acquisition and Logistic Support (CALS) — mittlerweile umbenannt in Continuous Acquisition and Lifecycle Support] erste bedeutende Anwender für diese Technologie. SGML hat sich in diesen Bereichen wie auch in der zivilen Luftfahrt, wo ebenfalls sehr strikte Vorgaben für die Strukturierung der technischen Dokumentation bestehen, als Informationsarchitektur etabliert und zu zahlreichen weiteren Industriestandards auf diesem Gebiet geführt.

Lange Jahre blieb der Einsatz von SGML allerdings auf diese Bereiche beschränkt. Der hohe Aufwand, der mit dem Einsatz von SGML verbunden war, schreckte insbesondere Heimanwender und kleine Unternehmen ab. Die gegen Ende der 1980er Jahre aufkommenden WYSIWYG-Textverarbeitungssysteme mit integriertem Formatierer ließen sich erheblich einfacher bedienen und konnten zudem bereits während des Eingabeprozesses zeigen, wie das Dokument auf dem Ausgabegerät dargestellt wird.

Als Tim Berners-Lee 1990 mit der Hypertext Markup Language (HTML) einen SGML-Dokumenttyp zur Auszeichnung von Hypertext-Dokumenten im WWW entwickelte (vgl. Lerneinheit 12), gewann SGML langsam an Bedeutung. HTML nimmt in dieser Informationsarchitektur die Rolle einer universellen Sprache zur Repräsentation strukturierter Inhaltsinformationen ein. Die Strukturierung ist sehr einfach gehalten und orientiert sich im wesentlichen am logischen Aufbau textueller Informationen im Buchdruck (vergleichbar zu der in Abbildung 3 gezeigten Struktur). Darüber hinaus kann jedes HTML-Dokument zahlreiche Meta-Informationen enthalten, mit deren Hilfe beispielsweise die Verknüpfung mit anderen Ressourcen im WWW beschrieben wird.

Da mit HTML das Vokabular und die Bildungsregeln für Dokumente fest vorgeschrieben werden, wurden zahlreiche SGML-Werkzeuge entwickelt, die lediglich diesen speziellen Dokumenttyp verarbeiten konnten. Generische Werkzeuge, die zur Verarbeitung beliebiger Dokumenttypen geeignet waren, blieben aufgrund der hohen Komplexität dieser Aufgabe sehr selten.

Dies wirkte sich auch auf zahlreiche weitere Anwendungen im Umfeld von SGML aus: Für den Einsatz von SGML zur Beschreibung von Orts- und Zeitbezügen in multimedialen Anwendungen, für die regelbasierte Transformation von Dokumenten, Spezifikation von Topologien in Informationsbeständen usw. wurden Verarbeitungsmodelle und Beschreibungssprachen auf der Basis von SGML entwickelt und teilweise standardisiert, aber die Implementierungen gelangten über das experimentelle Stadium nie hinaus.

Den Grund dafür zeigte ebenfalls das World Wide Web: Die Einfachheit von HTML ermöglichte die Entwicklung einer großen Vielfalt entsprechender Werkzeuge, die schnell Verbreitung fanden. Die mit der Sprache einhergehenden Einschränkungen wurden als weniger problematisch angesehen, da viele Eigenschaften von SGML gar nicht benötigt wurden.

Die Praxis hat ferner gezeigt, daß viele Autoren von HTML-Dokumenten der Zusammenhang mit SGML nicht bewußt war. Da viele Web-Browser sehr tolerant gegenüber syntaktischen Fehlern in den häufig manuell erstellten Dokumenten waren, bildeten sich langsam neue Anwendungsmuster für die logische Dokumentauszeichnung heraus: Statt auf die Einhaltung formal definierter Dokumenttypen zu bestehen, stellten Web-Browser alle ihnen bekannten Elementtypen — im Dokument durch tags markiert — auf dem Ausgabegerät dar. Viele Browser-Hersteller versuchten sogar, sich von ihren Konkurrenten abzuheben, indem sie neue Elementtypen einführten, um bestimmte Effekte bei der Darstellung eines Dokuments zu erzielen.

Als Ergebnis dieser Entwicklung wiesen die HTML-Prozessoren in vielen Web-Browsern kaum noch Eigenschaften des SGML-Verarbeitungsprozesses auf. Im Jahr 1997 wurde daher von der ISO/IEC ein Zusatz zum ursprünglichen SGML-Standard von 1986 verabschiedet, der diese Praxis auf eine solide Basis stellen sollte. In diesem Technical Corrigendum 2 (TC2) wurden unter dem eingängigeren Namen WebSGML zwei neue Anhänge zum Originaldokument festgelegt. Der erste, normative Anhang beschrieb die oben erwähnten Änderungen, mit denen die gängige Praxis im WWW wieder weitgehend SGML-konform wurde.

Der zweite Anhang war lediglich informativ und beschrieb den Zusammenhang zwischen SGML und einer anderen Metasprache, die mittlerweile als “neue Auszeichnungssprache” für das WWW gehandelt wurde: die Extensible Markup Language (XML).

Kommentare (0)

Ihr Kommentar

Name