next up previous contents
Next: offene Standards Up: Text Previous: Textpräsentation   Contents

Ordered Hierarchy Of Content Objects

Die Frage, wie Text kodiert werden soll, um einmal seiner Natur sehr nahe zu kommen und ebenso die Möglichkeiten einer maschinellen Verarbeitung zu optimieren, mündet irgendwann in der Frage, was eigentlich die Natur des Textes sei. Es gibt naturgemäß die verschiedensten Betrachtungsweisen und Erklärungsansätze von Text, abhängig von den verschiedensten Kontexten, wie Medium, Funktion oder Form, um nur einige zu nennen. Im Kontext der elektronischen Textkodierung gab es in den 90er Jahren des 20 Jahrhunderts im Bereich der SGML-Community einen Versuch, sich der Natur des Textes anzunähern.
Ausgangspunkt war die Frage 'What is text, really?' und eine erste Antwort gleich vorweg 'A text is a OHCO.' [Renear et al., 1993] OHCO ist ein Acronym für Ordered Hierarchy of Content Objects, was soviel bedeutet wie, ein Text ist eine Anordnung von hierarchisch angeordneten Objekten einzelner Textteile. Problembestimmend war für diese Diskussion die Tatsache von overlapping objects, denn nach der OHCO-These kann ein Textelement immer nur einer logischen Einheit zugehören, nicht mehreren gleichzeitig. Das hat unter anderem zu immer genauer formulierten Versionen von OHCO-Thesen geführt, ich zitiere hier nur die letzte und dritte Version OHCO-3:
For every distinct pair of objects x and y that overlap in the structure determined by some perspective P(1), there exists diverbatim perspectives P(2) and P(3) such that P(2) and P(3) are sub-perspectives of P(1) and x is a object in P(2) and not in P(3) and y is an object in P(3) and not in P(2). [Renear et al., 1993]
Die Textelemente (content objects) werden im Abschnitt 4.2.1 bereits als Strukturelemente ausgemacht und bei SGML mittels generischen Markup ausgezeichnet. Ich lasse mich hier nicht allzu genau auf diese Textdiskussion ein, ernte aber sehr wohl die Früchte dieser Debatte und setze sie für meine Zwecke ein. Einmal lässt sich Text bei Interesse an seiner Struktur und seiner Modellierung anhand der Struktur sehr brauchbar als OHCO behandeln. Weiters kommt es auf die jeweilige Sichtweise an, wie Textobjekte lokalisiert werden. Das heißt, divergente Sichtweisen erzeugen divergente OHCOs, jedoch können verschiedene Sichtweisen auf einer Metaebene stets aufgelöst werden. Diese Einsicht ist, vor dem Hintergrund plausibel, dass es keine fix implementierte Strukturhierarchie von Objekten gibt, sondern eine solche immer erst ensteht, wenn jemand eine Betrachtung einer Analysesituation auf den Text legt.
Für diese Untersuchung ist es zweckmäßig, Texte wie OHCOs zu behandeln, denn mit SGML und weiteren sie flankierenden Standards ist diese Art der Textmodellierung das zum heutigen Zeitpunkt beste Verfahren mit elektronischem Text umzugehen, was unten noch zu zeigen sein wird.
next up previous contents
Next: offene Standards Up: Text Previous: Textpräsentation   Contents
Nikolai Jursic 2004-03-05