textei.net — Hilfe

Zurück zur Hilfe-Hauptseite.

Die Uniforme Textstelle-Identifizierung (UTI)

Grundbegriffe

Wir führen eine Namengebungskonvention für Textstellen ein, die einen beliebigen Textbereich (von einzelnen Wörtern über Kapitel bis ganze Werke) auf einer universalen, leicht nachvollziehbaren Weise identifiziert. Wir nennen sie die Uniforme Textstelle-Identifizierung, UTI. Sie basiert auf die folgenden Begriffe:

Wort
Unter Wort versteht man hier eine Folge von Buchstaben inkl. Bindestrichen. Die Wörter werden durch Interpunktionszeichen und Leerschritte getrennt. So besteht „Textstelle-Identifizierung” aus einem Wort, „der der” aus zwei Wörtern (obwohl beide gleich sind), und „Er sagte jenes aus.” aus vier Wörtern (obwohl „aussagen” sprachlich zusammengehört).
Satz
Ein Satz ist entweder ein grammatikalischer Satz oder überhaupt eine nicht weiter strukturierte Reihe von Wörtern und Interpunktionszeichen (etwa eine Überschrift).
Absatz
Ein Absatz besteht aus mehreren Sätzen, die eine feste Ordnung aufweisen. Die Ordnung ist in der Regel eine Folge (und so handelt es sich um einen herkömmlichen Absatz), kann aber auch z. B. eine zweidimensionale Reihe (also eine Tafel) sein.
Textblock
Eine Ebene höher der Struktur stellt der Textblock dar, der eine Liste von Absätzen ist. Ein Textblock ist also laufende Rede, die zusammen gehört, und durch keine Überschriften unterbrochen wird. Der Textblock ist der Kern der UTI.
Text
Ein Text setzt sich aus der Gliederung und den Textblöcken zusammen. Die Gliederung ist eine Hierarchie von Knoten, wobei jeder Knoten mit einem Satz beschriftet ist. Jeder Textblock gehört zu genau einem Knoten (aber nicht jeder Knoten hat auch einen Textblock). Die Knoten werden häufig in Kategorien eingeteilt: Teile, Kapitel, Paragraphen, usw. Für historische Werke gilt: Ein Text ist die von einem Herausgeber fixierte Fassung eines Werkes oder Schriftstückes.

Namenkonvention

Die Textblöcke werden durchnummeriert. Der erste Textblock wird 1# genannt, der zweite 2# und so fort.

Für Wörter, Sätze und Absätze gilt: Die Elemente werden innerhalb der Ebene durchgezählt, Ebenen werden mit einem Punkt getrennt. So wird das erste Wort 1 genannt, das erste Wort des zweiten Satzes 2.1, das erste Wort des zweiten Satzes des dritten Absatzes 3.2.1, und das erste Wort des zweiten Satzes des dritten Absatzes des vierten Textblockes 4#3.2.1.

Die Texte werden mit einer Zeichenkette benannt, etwa krv. Die Texte lassen sich hierarchisch organisieren, wobei die Ebenen mit / getrennt werden. So bekommt in dieser Website zum Beispiel die 2. Auflage der Kritik der reinen Vernunft in der Herausgabe von Benno Erdmann den Namen kant/krv.

Also ist die vollständige UTI für das erste Wort* dieses Textes kant/krv/1#1.1.1, für den letzten Satz kant/krv/147#7.4, die ganze Vorrede kant/krv/4, den ersten Absatz der Einleitung kant/krv/5#1. Relative Bezeichnungen sind zulässig, wenn der Zusammenhang bekannt ist. So kann man einfach von 3# reden, wenn der Text bereits eindeutig bestimmt ist, oder von #4.1 dort, wo der Textblock fest steht, oder auch von #.2 und #.3 als dem zweiten und dritten Satz innerhalb eines im Voraus benannten Absatzes und von #..4 als dem vierten Wort eines gegebenen Satzes. Das Zeichen # sollte immer angegeben werden, denn es kennzeichnet die Angabe als eine UTI.

Eine beliebige Textspanne lässt sich mit dem Doppelpunkt darstellen. So bedeutet in jenem Werk 5:11# die ganze Einleitung, die sich über 7 Textblöcke erstreckt. Die ersten zwei Sätze der Vorrede sind 4#1.1:2.

Ein beliebiger Textauszug lässt sich dadurch bezeichnen, dass man eine Reihe von Textspannen angibt. So sind 6#2.2 10#2.3 die zwei Sätze in der Einleitung, in denen von Hume gesprochen wird.

* Bemerken Sie, dass gegenwärtig in dieser Text-Engine die UTI bis Sätze, nicht aber für einzelne Wörter unterstützt wird. Diese Konvention sollte außerdem einmal erweitert werden, um die Überschriften als solche (nicht die von ihnen umfassten Textabschnitte) und die Interpunktionszeichen auch benennen zu können.

UTI als URI

Sollten Sie mit der Uniform Resource Identifier (URI) des World Wide Web vertraut sein, so wird Ihnen die Ähnlichkeit der UTI damit wohl bereits aufgefallen sein. In der Tat ist die UTI so definiert, dass sie möglichst kompatibel mit der URI ist. Ja sie ist mit ihr wo möglich identisch. So erreicht man unter dem Server textei.net jeden Textblock, Absatz und Satz unter dessen UTI, z. B. befindet sich der Satz von der Taube, UTI kant/krv/7#3.11, unter der URL http://textei.net/kant/krv/7#3.11, und die Vorrede, UTI kant/krv/4#, unter der URL http://textei.net/kant/krv/4#.

Diese statische URL gilt technisch bedingt nicht für UTI, die den Doppelpunkt enthalten, und auch nicht für zusammengesetzte Auszüge. Allgemein gültig ist hingegen die dynamische URL, die unter Weblink beschrieben wird.

Zurück zur Hilfe-Hauptseite.