in: Universitas, 619/1998, S. 52-66

Claus Pias

Die zwei Körper des Textes

Elektronisches Publizieren in den Geisteswissenschaften

Wissenschaftliche Literatur wird normalerweise nicht nachgefragt, sondern angeboten: Das Angebot bestimmen die Produzenten und nicht die Kunden. Deswegen ist diese Literatur auch nicht in kommerziellen Kategorien kalkulierbar, sondern muß in der Regel subventioniert werden.

Aber nicht nur diese ökonomischen Rahmenbedingungen bestimmen die Produktion wissenschaftlicher Literatur. In den letzten Jahren sind weitere wirtschaftliche und auch technologische Veränderungen hinzugekommen. Die Etats der Bibliotheken und privaten Buchsammler schmelzen ab, so daß sich die Zahl der Kaufinteressenten ständig verringert. Zugleich steigen die Arbeitskosten, das heißt konkret die Versand-, Buchhandels- und Vertriebskosten.

Der Verkauf eines geisteswissenschaftlichen Buchs pendelt erfahrungsgemäß zwischen ein- und dreihundert Stück über einen Zeitraum von drei bis vier Jahren, wenn es sich um einen jungen und durchschnittlich bekannten Wissenschaftler und um ein durchschnittlich interessantes Forschungsthema handelt. Aber selbst die bekanntesten Autoren, die brisantesten und aktuellsten Themen erreichen nur ganz selten eine wirklich kostendeckende Verkaufsauflage. Und natürlich verbessert eine attraktivere Buch ausstattung in Form von Hardcover-Fadenbindungen, schwerem Papier und Farbabbildungen kaum die Rentabilität.

Das Buch ist in seiner Herstellungsweise ein Massenmedium, es vervielfältigt in großer Menge Texte und Bilder. Wenn eine große Menge aber nicht gefragt ist wie im Bereich der Geisteswissenschaften , läßt sich fragen, ob es nicht das falsche Medium ist. Dennoch ist es immer noch der einzige Garant dafür, daß Forschungsergebnisse der Fachöffentlichkeit zugänglich gemacht werden. Zuschüsse sind also in welcher Form auch immer notwendig, um den wissenschaftlichen Austausch aufrechtzuerhalten.

Solange die Kosten noch übersichtlich waren und notfalls aus privaten Mitteln aufgebracht werden konnten, solange die Menge der Publikationen und ihr jeweiliger Umfang noch der allgemeinen Interessenslage entsprachen, hat dies kein ernsthaftes Problem dargestellt. Doch die angewachsenen Studentenzahlen denen die Etats der Universitäten nicht angepaßt, sondern (im Gegenteil) noch gekürzt werden lassen eine Flut von Forschungsarbeiten entstehen. Damit steigt insbesondere der Zwang, sich gegenseitig zu reflektieren und zu zitieren.

Computer im Spiel

Hier bereits kommt nun der Computer ins Spiel: Er wird zusehends mehr als akkumulatives Schreibgerät benutzt also für eine vor allem sukzessiv sammelnde, anordnende und neuordnende Schreibtätigkeit, die sich vom "konventionellen" Schreibvorgang deutlich unterscheidet. Dieser narratologische Bruch befördert das Aufquellen der Verweise und Referenzen in den wissenschaftlichen Arbeiten, und so wächst auch ihr Umfang mittlerweile exponentiell. Und noch etwas kommt hinzu: Populäre Themen schwinden, der Kreis der Interessierten für ein Thema wird immer kleiner, statt dessen wächst die Fülle von Arbeiten, deren Titel manchem Verleger den Angstschweiß auf die Stirn treiben. Hunderte von öffentlichen und privaten Forschungseinrichtungen unterhalten diese Produktion mit jährlich dreistelligen Millionenbeträgen, was aufgrund der denkbar schlechten Organisationsstruktur wissenschaftlicher Arbeit noch immer nicht ausreicht und die Autoren zwingt, nach zum Teil abenteuerlichen Auswegen zu suchen.

Leere in öffentlichen und privaten Kassen und Redundanz der unaufhörlich anschwellenden geisteswissenschaftlichen Literatur, die mittlerweile die Rezeptionskraft selbst der leidensfähigsten Fachleute übersteigt: In dieses Szenario tritt nun der Computer freilich nicht der einfache "Schreib-PC", sondern der vernetzte, Vernetzungen schaffende und entzweit die Gemüter, spaltet die scientific community in Apokalyptiker und Integrierte. Während die einen das Verschwinden des Wissens unter dem Berg von Information befürchten, das Ende des Buches und damit den Untergang des Abendlandes, träumen die anderen von dem raschen Austausch von Information und den revolutionären Darstellungsmöglichkeiten, die Bild und Text, Text und Text, Bild und Bild auf völlig neue Weise verknüpfen lassen.

Das "elektronische Publizieren" im Internet oder auf CD-ROM; möglichst hyper-verlinkt oder interaktiv befreit aber nicht aus der Krise der Legitimität, sondern ist dabei, eine neue zu produzieren. Wenn nämlich alle Information potentiell überall und für jeden verfügbar ist, werden genau jene aufgeblähten Fußnoten- und Literaturverzeichnisse zusehends obsolet, die zwar der Adressierungslogik der hergebrachten Wissensspeicher entsprangen und einst wissenschaftliche Aufrichtigkeit verbürgten, heute aber oft genug nur über gedankliche Dürftigkeit hinwegzutäuschen helfen. Weil Legitimität durch diskursive Verfahren gestiftet wird, werden digitale Archive die Kaschierung mangelnder Innovation durch intensive Sammlungstätigkeit zusehends erschweren.

Raus aus der Krise der Rentabilität?

Diese Entwicklung hat allenfalls begonnen. Eine andere Folge des Computereinsatzes bei der Produktion (geistes-)wissenschaftlicher Literatur ist hingegen deutlich absehbar: Der Computer befreit aus der Krise der Rentabilität. Daß diese schon lange, nicht zuletzt aufgrund der zeitweise notwendigen Selbsterniedrigung der Autorenschaft, ein Makel der Disziplin ist, hat leider noch niemanden dazu bewogen, eine Geschichte der Subvention zu schreiben, obwohl diese den historischen Zeitgeist ebensogut spiegeln würde wie die Wahl der behandelten Gegenstände oder die Rhetorik ihrer Behandlung selbst.

So häufen sich in letzter Zeit sogar in Internet-Foren, in denen es noch vor kurzem als unschicklich gegolten hätte, Beiträge zum Thema "elektronischen Publizieren". Es scheint, daß sich die medientheoretische Poesie der letzten Jahre, die sich an elektronischen Weltdörfern, Virtualitäten und Vernetzungen delektierte, nun zu institutioneller Prosa verfestigen soll. Das Spektrum der Beiträge reicht von simplen Kollektionen von Internet-Adressen für Germanisten, Historiker oder Philosophen bis hin zu weitreichenden Ausführungen über die Geschichte der Hypermedien und ihre Epistemologie. Die Diskussion um Kosten und technische Voraussetzungen wird dabei gerne an die betroffenen Institutionen (Bibliotheken, Verlagen und so fort) beziehungsweise an die sogenannten "Techniker" delegiert: Dem Geisteswissenschaftler erscheint die Technik normalerweise als bloß supplementär für seine eigentliche Aufgabe "der Computer ist eine bessere Schreibmaschine".

Daß dem nicht so ist, zeigen die Möglichkeiten des Internet: Der Computer ist zum Kommunikationsinstrument geworden, das den Austausch zwischen Wissenschaftlern, die Recherche und Diskussion von Ergebnissen zumindest potentiell auf eine ganz neue Basis gestellt hat.

Was dabei weniger im Fokus der Aufmerksamkeit der wissenschaftlichen PC-Gemeinde steht, ist der Umstand, daß sowohl für Erarbeitung als auch für die schlußendliche Darstellung und Verbreitung von Forschungsergebnissen neue Verfahren außerhalb des bloßen Ablegens im Internet verfügbar sind. Diese Verfahren sind im Wesentlichen auf zwei Dateiformate reduzierbar SGML, die "standard Generalized Markup Language", und PDF, das "Portable Document Format" die zwei völlig verschiedene Weisen elektronischen Publizierens darstellen. Ihren Charakter möchte ich im folgenden vereinfachend als "strukturierend" versus "formatierend" beschreiben. Dieser Unterschied hat weit reichende Konsequenzen auf so grundlegende Konzepte wie Autorschaft, Lesen und Schreiben, nicht zu vergessen auf die logistische, ökonomische und zeitliche Bereit stellung und Verwaltung von Information.

Diese Formate sind schon seit längerem verfügbar, werden in den erwähnten Debatten um das elektronische Publizieren aber erstaunlicherweise kaum beachtet. Dabei bietet sich eine erhöhte Aufmerksamkeit für die bereits bestehenden Verfahren schon deshalb an, weil die Deutsche Forschungsgemeinschaft keine neuen Software-Entwicklungen mehr fördert, sondern nur noch Implementierungen aufgrund bestehender standardapplikationen. Geisteswissenschaftler wie Informatiker mögen die bei meinem Versuch dieser Verknüpfung entstehenden Verkürzungen und Redundanzen verzeihen.

standard Generalized Markup Language

Das Akronym SGML steht für "standard Generalized Markup Language". Zum "standard" hat es sich seit 1969 entwickelt: Von IBM als GML zur Benutzung auf Mainframes Großrechnern konzipiert und 1986 ISO-zertifiziert, wurde es bis zirka 1990 hauptsächlich im US-Verwaltungsapparat und im Verteidigungsministerium verwendet. Erst danach drang es in praktisch unveränderter Form in andere Bereiche der Dokumentorganisation ein.

Eine SGML-Dokument wird, wie jeder Quelltext, im sogenannten ASCII-Code verfaßt. Es befindet sich daher gewissermaßen am Nullpunkt informatischer Konventionen, denn die ASCII-Konvention umfaßt 96 Zeichen ohne nationale Sonderzeichen, die im Repertoire jedes Computers enthalten sind. Ein SGML-Text ist also anders als fast alle anderen Dokumente quasi unbegrenzt lagerbar und benutzbar, denn er ist, da er ein Quelltext ist, von keiner spezifischen Software oder Hardware abhängig. Die logische und faktische Konsequenz ist, daß SGML mit jeder Textverarbeitung auf jedem Computer geschrieben werden kann, nach dem Verfassen aber von seinen Ursprüngen völlig unabhängig ist.

Der Quelltext ist also eine Datei, die den eigentlichen Text enthält und das was mit der Sprache SGML ("Language") in Form von frei definierbaren sogenannten "Tags"an ihm markiert wurde ("Markup"). Der Ausdruck "generalized" deutet dabei an, daß diese Sprache nicht nur an verschiedenste Aufgaben angepaßt werden kann, sondern im Sinne von "generisch" auch, daß es bei SGML um die Identifikation von Objekten und nicht um die bloße Beschreibung von Formatierungen wie Fett- oder Kursivdruck, von Hochstellungen und Unterstreichungen geht.

Jede normale Textverarbeitung also auch HTML ("Hypertext Markup Language"), der standard des Internet, der freilich nur eine winzige Realisierung von SGML ist , benutzt Markierungen, um Text zu formatieren. Das bedeutet, daß innerhalb einer Kette von Zeichen (eines "Strings") ein bestimmtes Attribut (zum Beispiel: "Kursiv") ein- und wieder ausgeschaltet wird, so daß allen Zeichen zwischen Ein ("Kursiv Anfang") und Aus ("Kursiv Ende") dieses Attribut zukommt. Dank der heute omnipräsenten graphischen Benutzeroberflächen bleiben die technischen Markierungen, Steuerzeichen oder Tags, die dies bewirken, dem Benutzer im Normalbetrieb verborgen. Auf dem Bildschirm und im Druck erscheint nur die fette oder kursive Schrift. Jeder gewandte PC-Benutzer weiß darüber hinaus, daß entsprechende Formatierungshinweise zu Formatvorlagen etwa für ganze Absätze (Überschriften, lange Zitate, Fußnoten) zusammenzufassen sind.

All diese Anweisungen betreffen das formale Erscheinungsbild des Textes. Hierarchische Überschriften mit automatischer Numerierung, wie sie alle gängigen Textverarbeitungen bieten, sollten darüber nicht hinwegtäuschen, denn sie sind nur Arbeitshilfen. Dem Programm selbst ist die strukturelle Konsistenz des mit ihm verfaßten Dokumentes egal.

Rigide kontrolliert

Völlig anders SGML, das die strukturelle Integrität eines Textes viel rigider kontrolliert. In SGML wird nicht das Aussehen eines Strings markiert, sondern er wird als ein bestimmtes semantisches oder strukturelles Ereignis des Textes identifiziert. Nehmen wir einen einfachen Satz wie "Arnold Böcklin malte die `Toteninsel'". In einer normalen Textverarbeitung können beliebige Wörter dieses Satzes fett, kursiv, in anderer Schriftart und größe und so weiter markiert werden. In SGML dagegen kann zum Beispiel das Wort "Böcklin" als Nachname, das Wort "Arnold" als Vorname, oder können die beiden Wörter "Arnold Böcklin" einfach als Name markiert werden. Welche Ereignisse in einem bestimmten Text vorkommen, bestimmt eine sogenannte DTD ("Document Type Definition") per Deklaration ("element declaration"). In ihr legt der Benutzer für das gesamte Dokument fest, welche Textelemente in welcher Weise markiert werden. In unserem Fall würde man in der DTD definieren, daß im Text Vornamen, Nachnamen oder einfach Namen vorkommen, wodurch dann innerhalb des Textes bestimmte Stücke als solche markiert werden und also auch wiedergefunden werden können. Während man in einer normalen Textverarbeitung nur nach konkretem Text suchen könnte (zum Beispiel nach "Böcklin"), könnte man in SGML nach Nachnamen suchen, ohne konkrete anzugeben.

Art und Anzahl der Ereignisse eines Textes sind unbegrenzt und ihre Markierung hat nicht zwingend etwas mit der Formatierung im Ausgabemedium (Druck, Bildschirm) zu tun. Sie kann zwar später hinzukommen, also wenn man etwa definiert, daß alle als Name makrierten Strings fett oder kursiv ausgegeben werden, diese Zuweisung ist nicht die einzige mögliche und liegt zudem im Belieben des Benutzers. Und die Elemente eines Textes können sehr groß und ineinander verschachtelt sein, also zum Beispiel Kapitel in denen Unterkapitel vorkommen, in denen Zitate vorkommen, in denen Namen und Vornamen vorkommen.

Anders als normale Textverarbeitungen stellt SGML also vor dem Schreiben die Frage nach den Möglichkeiten des Textes. Wenn Fußnoten nicht als Ereignisse des Textes vorgesehen sind, können auch keine geschrieben werden. Wenn keine abgesetzten Zitate durch die DTD in den Möglichkeitsraum des Schreibens gelangen, werden nie welche erscheinen. SGML macht so die Bedingungen bestimmter Schreibtechniken sichtbar und zwingt den Schreibenden zu ihrer Reflexion.

Doch von den Techniken zurück zur Technik. Markierte Strings können mit Attributen versehen werden, die Anmerkungen vergleichbar sind. Attribute können Zahlen und Strings sein, also zum Beispiel das Todesdatum Böcklins oder "braun" als seine Haarfarbe. Ferner erlaubt SGML die Definition und Verwendung bestimmter unveränderlicher Entitäten ("entities") des Textuniversums. Der Umlaut in "Böcklin" ist so eine Entität, ein fester und wiederkehrender Bestandteil, definiert in einer DTD, die die Freiheit eröffnet, Texte mit "ö" zu schreiben. Eine Entität kann aber auch ein Bild oder ein Klang sein, und alle Entitäten können wiederum markiert werden.

Böcklin braunhaarig

Betrachten wir den Beispielsatz "Arnold Böcklin malte die `Toteninsel'" in einer möglichen Stufe des Markierungsprozesses. Ich wähle die Markierungen willkürlich (Tags sind mit "<" und ">" eingeklammert, zum Beispiel <satz> wobei dieser Tag den Satzanfang markiert und <\satz> das Satzende ; Entities werden wie &ouml für O-Umlaut mit "&" und ";" markiert):

<satz><name geb="1827" ges="1901" haar="braun"><vn>Arnold</vn><nn>B&ouml;cklin</nn> </name> malte die <gemtitel dat="1883" gat="Landschaft" au="Böcklin> <bild ho="80" br="150" ort=&SMPK; tech="Öl auf Leinwand">&toteninsel;</bild>Toteninsel</gemtitel></satz>.

Tags und Entities haben dem nackten Beispielsatz einige Information hinzugefügt: Arnold Böcklin lebte von 1827 ("geb") bis 1901 ("ges"), hatte braunes Haar ("haar") und malte 1883 ("dat") ein Gemälde mit dem Titel "Toteninsel" ("gemtitel"), das 80 mal 150 Zentimeter groß ist ("ho" und "br"), in Öl auf Leinwand ausgeführt ("tech") und eine Landschaft ("gat") darstellt. Eine Abbildung ist als Entität des Textes ("&toteninsel;") vorhanden, das Original gehört den Sammlungen und Museen Preußischer Kulturbesitz ("&SMPK;")

Dies ist nur eine sehr einfache und konventionelle Möglichkeit. Entscheidend ist, daß das Spiel endlos weitergespielt werden kann, je nachdem, welche Information man an einem Text für interessant erachtet oder was für Ereignisse in einem Text wahrgenommen werden sollen. Der Text kann auch nach und nach durch verschiedene Bearbeiter um verschiedene semantische oder struktuelle Informationen erweitert werden. Die von unserem fiktiven Kunsthistoriker angebrachten Markierungen des Beispiels könnten durch einen Verfechter der generativen Transformationsgrammatik mit anderen Markierungen überschrieben werden oder durch einen Literaturwissenschaftler, der über Wissenschaftssprache arbeitet.

Entscheidend ist, daß ein solches Überschreiben keine Tilgung ist, sondern ein Darüberschreiben im Sinne eines Palimpsestes. Negativ ausgedrückt ergäbe dies (mit George Steiner) das Bild des parasitären, unendlich wuchernden Diskurses des Sekundären, unter dem die "eigentlichen" Texte verschwinden. Positiv und wörtlich formuliert fände hier eine Einschreibung verschiedener Leser in den Text statt, bei der alle Einschreibungen und der Urtext zugleich in ein und demselben Dokument sichtbar blieben nur daß sie nicht mehr chronologisch nachvollziehbar wären. Das heißt, die Lektüren/Einschreibungen würden radikal enthistorisiert, sie wären alle gleichzeitig präsent. Wenn man nicht gerade eine Art Zusatzprotokoll hinzufügt, das die Veränderungen von DTD und Markierungen dokumentiert, ergibt sich daraus tatsächlich ein durch Digitalisierung dekontextualisiertes Wissen.

Die veränderte Navigation innerhalb dieses Wissens wird am besten wiederum im Vergleich mit der normalen Textverarbeitung deutlich. Die Suche innerhalb eines Textes findet dort mit Elementen des Textes selbst statt; man sucht vereinfacht dargestellt ein Wort, das im Text vorkommt, also einen Teilstring im Gesamtstring. Durch die Strukturierung in SGML können dagegen bestimmte Ereignisse oder Entitäten eines Textes und deren Attribute gefunden werden das heißt. im Beispiel könnte man Sätze suchen, in denen Gemälde vorkommen oder Vornamen. Man könnte Landschaftsgemälde suchen vor 1885, die breiter als 140 Zentimeter sind und von Künstlern mit braunen Haaren geschaffen wurden. Die Suchmöglichkeiten verhalten sich dabei proportional zur Menge der im Dokument enthaltenen Markierungen, Entitäten und Verknüpfungen.

Immer reicher

Ein SGML-Dokument wird also umso reicher, je mehr Lektüren (im Sinne von Bearbeitungen) sich darin eingeschrieben haben. Hier erscheint erstmals das Problem, das man literaturwissenschaftlich mit der Verbindlichkeit der Lektüren ausdrücken könnte: Markierungen an einem Text resultieren aus bestimmten Interessen an ihm. Diese Interessen folgen einerseits (etwa wissenschaftlichen) Konventionen, andererseits können sie individuell oder "neu" sein. Ein Kunsthistoriker möchte zum Beispiel aufgrund seines durch die akademische Praxis kodifizierten wissenschaftlichen Interesses das Entstehungsjahr der Toteninsel an den Text attributieren. Ein Künstler könnte dagegen Kommentare zum Farbauftrag attributieren. Da in SGML Markierungen, Attribute und Entitäten frei definierbar sind, ist beides möglich, aber nicht zurückverfolgbar.

Markierungen können auch für mehrere Autoren verbindlich gemacht werden, so daß sich das Dokument der Struktur einer Datenbank nähert, oder sie können den Autoren überlassen werden, so daß eine unkontrollierte Vielzahl von Einschreibungen entsteht. Die Forderung von SGML, durch Definitionen zuerst Rahmen zu schaffen, innerhalb derer sich Freiheit vollziehen kann, verlagert sich damit von der Ebene des Schreibens selbst auf die Ebene des Rechtes zu schreiben. Wer hat das Recht, sich in einen Text einzuschreiben, und woher kommt diese Legitimation? Dieses Problem verschärft sich noch deutlich, wenn man der Logik des Palimpsestes konsequent folgt, das heißt, wenn es von einem Text nur ein Exemplar gibt, das immer weiter kommentiert wird und so (zumindest virtuell) von einer unendlichen Schicht von Einschreibungen überzogen werden kann.

Vor jeder Spekulation steht jedoch die Frage, wer überhaupt mit SGML schreibend, einschreibend oder auch nur lesend umgeht und umgehen kann. Denn die Garantie auf extreme Langlebigkeit bedeutet zugleich den höchsten Verlust an Komfort für den Benutzer zumindest wenn die Möglichkeiten von SGML wirklich genutzt werden sollen. Da diese Sprache ein standard ist, der von keinem einzelnen Unternehmen im Sinne eines Copyrights gehalten wird und zudem offen ist, gibt es auch keine "einfache" Software zu seiner Benutzung. Der Schreibende ist also gefordert, eine Programmiersprache zu lernen, da Text und DTD, Markierungen, Attribute und so weiter im gleichen Dokument fortlaufend geschrieben werden. Wahrscheinlich sind wenn man mir dies nicht als Vorurteil auslegt fast ausschließlich Naturwissenschaftler durch ihren täglichen Umgang mit Computern und durch die quasi-verbindliche Benutzung des formeltauglichen Satzsystems TeX/LaTeX in der Lage, dies zu leisten. Meine mehrjährige Verlagstätigkeit offenbarte jedenfalls ein Bild alarmie render Unfähigkeit vieler Geisteswissenschaftler, auch nur gängige Textverarbeitungssy steme angemessen zu nutzen.

Da SGML aber eine Form der nichtlinearen inhaltlichen Bearbeitung eines Textes ist, kann diese anders als eine normale Formatierung, die meist der Layouter oder Typograph des Verlages übernimmt nur in den Händen des Autors liegen. Das heißt: SGML ermöglicht zwar theoretisch die allerorts panegyrisch begrüßten neuen Schreibweisen (Nichtlinearität, Hypertext und so fort), verschließt sie aber praktisch für den momentan durchschnittlichen Geisteswissenschaftler aufgrund der durchschnittlichen informatischen Defizite.

Die tatsächliche Nutzung von SGML zeigt, daß es nur einsatzfähig ist, wenn seine Möglichkeiten auf das Niveau einer sequentiellen Datenbank kastriert werden. Ein gutes Beispiel dafür ist das "Allgemeine Künstler-Lexikon" (AKL, Saur Verlag). Die Redaktion verteilt hier an die Autoren eine Maske, basierend auf einer einfachen DTD, in die Namen, Geburtsdaten und Lexikoneintrag wie in Felder einer Datenbank geschrieben werden. Erst in der Aufbereitung zum Druck tritt dann das gewissermaßen "heimlich" entstandene SGML wieder als solches zutage.

Distribution, Institution

Dies lenkt unseren Blick auf die Distribution und institutionelle Speicherung von SGML-Dokumenten. Im Beispiel des AKL wird aus dem SGML-Quelltext über spezielle Ex portfilter eine LaTeX-Satzbeschreibungsdatei, die dann in den Druck geht. Mit der Verfestigung zum Buch wird SGML zu einem Teil eines produktionstechnischen Verfahrens reduziert und damit im Prinzip seiner wesentlichen Möglichkeiten be schnitten. Natürlich ist eine solche Beschneidung geradezu unvermeidbar, da es sich bei dem Informationsmehrwert um prinzipiell unendlich viele Markierungen handelt. Eine SGML-Datei zu drucken bleibt solange sinnlos, wie nicht genau definiert wird, welche der Markierungen, Attribute und so weiter in der Ausgabe erscheinen oder nicht erscheinen sollen, wie sie erscheinen oder wie sie auf ihren Kontext wirken sollen. Drucken heißt, den unendlichen Fluß der Einschreibungen zu einem bestimmten Zeitpunkt zu terminieren.

SGML zum Beispiel ins Internet geben zu wollen, ist, genau wie die Umwandlung zum Druck, mit einer vollständigen Verwandlung strukturierender in formatierende Information zu bezahlen. Der standard HTML beschreibt (in seinen neueren Versionen immer stärker) nur das Aussehen des Textes. Ein Vorgang wie das Auslesen einer DTD und die Verfügbarmachung der Tags und Entitäten ist nicht möglich. Was herauskommt, ist also ein schlichter, linearer Text, der vielleicht einige Links und Abbildungen enthält, also faktisch nicht viel mehr Möglichkeiten als schon das Buch realisiert.

Die Speicherung von SGML-Dateien ist im Fall der Geisteswissenschaften ein besonderes Problem. Während zum Beispiel Passagen in Gesetzestexten durch eine strikte Logik der Numerierung sehr eindeutig adressiert sind, geschieht dies bei der Mehrzahl geisteswissenschaftlicher Texte durch die Seitenzählung. (Dies ist auch der Grund, warum SGML bei juristischen Verlagen und der Herstellung von Lexika schon durchaus verbreitet ist.) Allen Beteuerungen zum Trotz, daß man ja auch eine Internet-Adresse "zitieren" könnte, wird die Integrität der Seitenzählung bei geisteswissenschaftlichen Texten noch auf lange Zeit unverzichtbar bleiben.

Alle bisherigen Versuche der "Elektrifizierung" von Bibliotheken wurden von der Diskussion des Archivierungsauftrags begleitet. Erschwerend kommt hinzu, daß die Lebensdauer geisteswissenschaftlicher Schriften ungleich höher ist als die juristischer oder naturwissenschaftlich-technischer Schriften. Sie "veralten" nicht, sondern werden selbst zum Audruck ihrer Zeit, zum Gegenstand der Ideen- und Wissenschaftsgeschichte. Zudem bestehen im Falle von Dissertationen und Habilitationen Archivierungsvorschriften von mehreren Jahrzehnten. Angesichts der rapiden Wandlungen im Computerbereich und den bereits gemachten, schmerzhaft teuren Erfahrungen des Datenverlusts durch Aussterben von Hard- und Software stellen Bibliotheken die hohe Lebensdauer gedruckter Information immer wieder zu Recht in den Vordergrund.

Da SGML nun keine Formatierungsinformation bereitstellt, sind alle Formatierungen egal ob für Druck oder Bildschirm nur vereinzelte Aktualisierungen des SGML-Dokumentes, das heißt abhängig von dem Satzsystem oder dem Exportfilter, mit dem sie hergestellt werden. Auch wenn aus einem SGML-Dokument ein schönes Buch hergestellt werden kann, ist demnach fraglich, ob dies in zwei Jahrzehnten noch einmal seitenidentisch möglich sein wird, auch wenn das Dokument selbst noch in Benutzung ist.

Nicht genügend Kenntnisse

SGML ist eine sofern es dies gibt dem Computer originäre Art zu schreiben, eine digitale Textphilosophie. Das bedeutet zugleich, daß auch das Lesen diesem Medium originär ist. Schreiben, Lesen und Einschreiben stellen hier im Grunde nur Aspekte ein und derselben Technik dar. Die Überführung in gedruckte Form oder in HTML sind in diesem Sinne nur Seitenstraßen, wenn nicht Sackgassen. Die Möglichkeiten von SGML dürfen allerdings nicht darüber hinwegtäuschen, daß SGML eine Kette von Infragestellungen und Forderungen bedeutet, die sich Institutionen, Konventionen und Autoren so schnell nicht werden gefallen lassen.

Den geisteswissenschaftlichen Autoren werden informatische Kenntnisse abverlangt, denen sie sich in den meisten Fällen nicht aufschließen werden, weil sie als nicht zum kodifizierten "Eigentlichen" dieser Disziplinen gehörig erachtet werden. Die Prinzipien der Linearität des Textes und der Identität des Autors sind nach wie vor mit geisteswissenschaftlichen Texten verbunden, weil diese mit Hayden White Sinn, Wahrheit und Fakten in Form einer Erzählung (eines "emplotment") konstituieren. Selbst Autoren, die keine fortlaufenden Texte schreiben, sondern zum Beispiel Kommentare oder kritische Ausgaben edieren, werden lieber auf das materielle Buch zurückgreifen, da seine Materialität selbst zur Rhetorik der Gattung gehört: Eine prächtige Ausstattung nobilitiert Thema und Autor, obwohl jeder sagen wird, daß es nur um "die Sache" geht.

Für geisteswissenschaftliche Verlage ist SGML unnötig, denn Verlage bringen selbst Formatierungsinformationen an Texte an, die von der Wahl der Schriftart bis zur Umschlaggestaltung reichen. Solche Arbeit kann von Layoutern und Typographen geleistet werden, für die ein Text nur eine abstrakte Menge von Zeichen ist. Die Anbringung von strukturellen Informationen durch SGML wäre hingegen eine inhaltliche Bearbeitung, die nur durch einen programmier- und zugleich sachkundigen Lektor vorgenommen könnte und daher unbezahlbar wäre. Ganz abgesehen davon, daß sich dies kein Autor gefallen lassen würde, denn ein Buch an einen Verlag zu geben bedeutet den Willen zum Ende, die Kraftanstrengung, etwas Unabschließbares an einem bestimmten Zeitpunkt für abgeschlossen zu erklären.

Die Bibliotheken zuletzt werden SGML ablehnen, weil es die radikale Forderung nach Immaterialität stellt. SGML wird allenfalls zur Katalogisierung benutzt, nicht aber zur dauerhaften Speicherung von geisteswissenschaftlichem Volltext. Eine seitenidentische Rückführung in eine gedruckte Form ist nicht garantiert, und SGML fordert geradezu die Verletzung der Identität des Textes durch Einschreibungen. Die Prüfungsämter der Universitäten werden sich dieser Argumentation anschließen.

Das Internet zuletzt ist in seiner etablierten Form überhaupt nicht auf SGML angelegt und tendiert immer mehr in Richtung einer Imitation gedruckter Formen oder multimedialer Formen wie sie sich auf CD-ROMs finden, das heißt exakt reproduzierbarer Formatierung von Information. Seine Verbreitung schließt eine Änderung dieses Konzeptes inzwischen geradezu aus.

Portable Document Format

Das genaue Gegenteil der hyperstrukturierten Information in SGML ist die hyperfor matierte Information des PDF-Formates. PDF steht für "Portable Document Format" und wurde vor zirka vier Jahren von der Firma Adobe entwickelt. PDF basiert auf der Seitenbeschreibungssprache Postscript, mit der Adobe 1985, also zeitgleich mit dem Erscheinen des Apple Macintosh und der Layout-Software "Page Maker", den Grundstein des Desktop Publishing ("DTP") legte.

Postscript ist eine geräteunabhängige Programmiersprache zur Beschreibung von Seiten, das heißt von Schriftarten und größen, Rändern, Bildern, gaphischen Elementen und so fort. Sämtliche Elemente und ihre Positionierung werden in die Postscript-Datei eingebettet, die dadurch prinzipiell unabhängig vom Ausgabemedium ist. Ein sogenannter Interpreter eine bestimmte Software liest diesen in ASCII verfaßten Text und produziert nach den enthaltenen Anweisungen die Seite, sei es für den heimischen Drucker, für den Satzbelichter oder für den Bildschirm. Drucken heißt also, daß ein Postscript-Programm an den Drucker gesendet wird, der es dann interpretierend abarbeitet. Postscript ist internationaler standard, und es darf wohl ohne Übertreibung gesagt werden, daß praktisch jedes heute erscheinende Buch einmal in seinem Leben als Postscript-Datei vorliegt.

Postscript-Dateien bereiten jedoch beim Publizieren gewisse Probleme. Erstens handelt es sich um lineare Programme, das heißt, wenn auf Seite 4 von 400 ein Fehler auftritt, ist der Rest wertlos, ebenso, wenn der Fehler auf Seite 398 von 400 auftritt. Aufgrund der Komplexität kann dann nur noch eine neue Datei erzeugt werden. Zweitens sind Postscript-Dateien sehr groß und rechenaufwendig und werden daher (trotz der Variante "Display-Postscript") normalerweise nicht für die Bildschirmdarstellung benutzt. Drittens kann Postscript aufgrund seiner Komplexität praktisch nicht direkt geschrieben werden, sondern nur über bestimmte Programme (Druckertreiber) erzeugt werden. Das heißt, eine geräteunabhängige Datei kann nur aus einer anderen Datei abgeleitet werden, die auf einer ganz bestimmten Hard- und Software erzeugt wurde und später auch nur noch mit dieser ediert werden.

Das PDF-Format, das auf Postscript basiert, wurde von Adobe ursprünglich als Alternative zum Transport von Daten zwischen Verlagen/Grafikern und Druckereien/Belichtungsstudios entwickelt. Von Beginn an etablierte sich allerdings eine ganz andere Anwendung: PDF wird heute hauptsächlich zur Verbreitung elektronischer Dokumente benutzt.

PDF wird entweder aus einer vorhandenen Postscript-Datei oder direkt über einen Druckertreiber erzeugt. Wie bei Postscript ist es gleichgültig, in welchem Programm das Dokument ursprünglich erzeugt wurde. Ebenso werden alle Elemente wie Schriften, Bilder und dergleichen in die PDF-Datei eingebettet, die danach allerdings kaum noch zu verändern ist. Zuletzt ist auch die entstandene PDF-Datei unabhängig von Hardware und Betriebssystem. Der wesentliche Unterschied zu Postscript ist, daß PDF zur Benutzung am Bildschirm konzipiert wurde. Für jedes Betriebssystem gibt es gratis verfügbare und verteilbare Betrachtungsproramme ("Reader"), die die PDF-Datei auf dem Bildschirm darstellen, bearbeit- und druckbar machen. Die PDF-Datei erscheint also (egal auf welchem Computer) immer als ein exaktes Spiegelbild dessen, was gedruckt worden wäre; das heißt Layout, Typographie, Bilder, Seitenumbrüche alles sieht aus wie in einem Ausdruck, der nie entstand, sondern auf den Bildschirm umgeleitet wurde.

Virtuelles trompe l'oeil

Dieses virtuelle trompe l'oeil eines ungedruckten Buches ist ebenso sicher gegen Ver änderungen wie ein gedrucktes Buch, und an ihm können (trotz einiger Mehrwerte) prinzipiell auch nur die gleichen Techniken der Benutzung zur Anwendung kommen.

Wie mit einem Vergrößerungsglas können einzelne Bereiche vergrößert werden. Eine Volltextsuche erlaubt das Suchen nach einzelnen Wörtern, nach mehreren Wörtern mit logischen Verknüpfungen, nach Worthäufungen, Wortstämmen, Synonymen oder ähnlich klingenden Wörtern über ein oder mehrere Dokumente hinweg. Notizzettel können wie Randnotizen angebracht, mit Signaturen ihrer Verfasser versehen und den gleichen Suchoperationen unterworfen werden. Beliebig viele Lesezeichen können angebracht werden, anhand derer der Benutzer durch den Text navigieren kann. Durch Hypertext-Verknüpfungen sind Sprünge innerhalb des Dokumentes, zu anderen PDF-Dokumenten, zu anderen Programmen oder gegebenenfalls auch ins Internet möglich. Zuletzt ist über die Möglichkeiten des Buches hinausgehend die Einbettung von Klängen, Filmen und dynamischen Objekten möglich. Über ein Zusatzmodul können PDF-Dateien in allen gängigen Internet-Browsern direkt betrachtet werden, sind also ohne Modifikation sofort über das World Wide Web distribuierbar.

All diese Möglichkeiten legen sich aber nur wie ein Schleier über den eigentlich unveränderlichen Text. Anders als bei SGML, wo Text und Einschreibung den gleichen Status hatten, wahrt PDF die Finalität eines "eigentlichen" Textes, der benutzt wird, und stellt für diese Benutzung höchsten Benutzungskomfort bereit. In PDF kann um auf unser Beispiel zurückzukommen "Böcklin" nie mehr sein als ein String mit der Länge von sieben Zeichen. Die Information ist eben nicht strukturiert, dafür aber bis auf die kleinste Serife formatiert.

Daß PDF ein Abbild des Buches mit gewissem medialen Mehrwert (Geschwindigkeit, Multimedialität) ist, erinnert an die McLuhansche Einsicht, daß jedes Medium zunächst sein vorangegangenes enthalte. In der Tat enthält eine PDF-Datei so viel Buch, daß aus ihr wieder gedruckte Bücher abgeleitet werden können: Man braucht sie nur auszudrucken, um wieder ein Buch zu erhalten, denn dafür war sie ursprünglich ja gedacht. Während bei SGML Schreiben und Lesen vom Computer her gedacht sind, sich nur dort alle Möglichkeiten entfalten und beide Techniken im Extremfall eins werden, ist bei PDF nur zum Schreiben ein Computer notwendig. Dabei muß der Autor nicht einmal auf den Komfort und die Kontinuitätsillusion seiner gewohnten Textverarbeitung verzichten.

Kronprinz des Buches

Hier liegt denn auch das eigentliche Potential des PDF-Formates: Es macht den medialen Übergang zwischen Buch und Computer nicht nur in höchstem Maße dezent, sondern läßt auch den Rückweg immer offen. PDF ist in nicht nur konziliant, es ist (um Adorno zu zitieren) eine "Phantasmagorie": Unter der Erscheinung des Produkts versteckt es die Weise seines Produziertseins. Jeder kann wie gewohnt weiterschreiben und anschließend per Mausklick eine PDF-Datei "drucken". Diese kann dann in ein schönes Buch münden, auf eine CD-ROM gebrannt oder ins Internet gegeben werden, und zwar mit restlos identischer Gestaltung, konstanter Seitenzählung und so fort. Nicht nur darin bleibt der Autor Herr seines Textes, sondern auch in der Gewährung von Benutzungsmöglichkeiten, denn jede einzelne Funktion ist per Paßwort zu sperren. Bildqualitäten sind stufenlos regelbar, so daß Copyright-Probleme mit Verwertungsgesellschaften einfach zu regeln sind und Raubdrucke unmöglich gemacht werden können.

Aufgrund dieser Möglichkeiten ist PDF in letzter Zeit zum Kronprinzen des Buches geworden. Schon bei Erscheinen dieses Formates hat ein deutscher Verlag (der Verlag und Datenbank für Geisteswissenschaften2 ) die Konsequenz gezogen und bietet seitdem alle Titel wahlweise in gedruckter Form, als PDF auf CD-ROM und als PDF im Internet an. Da beim Druck jedes Buches ohnehin eine Postscript-Datei anfällt, ist es kein Problem, statt des Drucks oder zusätzlich zu ihm auch PDF zu erzeugen. Auch manche Zeitschriften haben dies eingesehen und veröffentlichen ihre Jahrgänge inzwischen im PDF-Format (etwa Der Spiegel). Prinzipiell könnten also alle heute erscheinenden Druckerzeugnisse sofort und ohne Mehrkosten in elektronischer Form erscheinen und zwar zu einem Bruchteil des Preises der gedruckten Fassung. Die Deutsche Bibliothek könnte mit einem Schlag alle neuerscheinenden Publikationen in Volltext archivieren und online anbieten. Da das Format hochkomprimiert ist, hätten leicht hundert bis dreihundert Bücher auf einer CD-ROM Platz.

PDF ist leicht zu erzeugen, zu sichern, zu verwalten und zu distribuieren; es ist betriebssystemunabhängig, setzt auf einem weltweit etablierten, "sicheren" standard auf und ist schließlich verlustfrei auf die Buchform rückführbar genau deshalb entschließen sich derzeit mehrere Universitätsbibliotheken, in diesem Format zu archivieren. (Werkzeuge zur Retro-Erfassung von Altbeständen werden schon von Adobe entwickelt). Da PDF auch leicht vom Autor selbst zu erzeugen ist, beginnen erste Prüfungsämter, ihre Regelungen zur Abgabe von Dissertationen zu revidieren, die Zahl der Pflichtexemplare zu reduzieren und PDF-Dateien zu akzeptieren.

Produktion oder Veröffentlichung?

Vergleiche ich abschließend die beiden Formate, so erscheint SGML eher als Metasprache zur Produktion von Texten, PDF als Metaformat zu ihrer Veröffentlichung. Die gängige Diskussion um elektronisches Publizieren läßt diese Grenze normalerweise verschwinden, sie entkoppelt also Produktion und Veröffentlichung. Der Computer wird dabei auf einen Enkel von Bleistifts und Bibliothek reduziert: Man schreibt wie gehabt, nur die Organisation und die Wiederauffindbarkeit des Geschriebenen nimmt ein neuer, schnellerer und verläßlicherer Apparat wahr. Das Internet wird dabei fälschlich als Manifestation eines Hypermediums begriffen, bloß weil Bilder, Text und Links zusammenkommen. In Wahrheit aktualisiert es nur eine partielle Möglichkeit von SGML und verfälscht dabei dessen Charakter von strukturell zu formatiert. Seine primitiven Techniken gehen prinzipiell nicht über Abbildung, linearen Text und Zitation hinaus, und seine Such-Möglichkeiten sind jeder Textverarbeitung unterlegen.

SGML selbst erscheint als originäre Einlösung der oft berufenen hypermedialen Versprechungen, verlangt aber von seinem Benutzer mediengerechtes Verhalten, an das sich die wenigsten Geisteswissenschaftler werden gewöhnen können. Zudem werden Gattungskonventionen, Autorschaft und andere Konzeptionen geisteswissenschaftlicher Texte einerseits, institutionelle Hemmnisse und mangelnde Akzeptanz andererseits eine weite Verbreitung verhindern. Selbst die Hinzufügung reproduzierbarer Formatierungsmöglichkeiten wie die in Arbeit befindliche SPDL ("standard Page Description Language") werden SGML keine breite Basis verschaffen, denn diese ist nicht zuletzt abhängig vom Illusionismus einfacher Software, die es nicht gibt.3 Die Zukunft von SGML in den Geisteswissenschaften liegt nicht bei der Masse der einzelnen Autoren, sondern in Projekten wie Lexika, Katalogen, Kritischen Ausgaben.4 Die Kommunikation zwischen Informatikern und Geisteswissenschaftlern muß dazu neu organisiert werden. Es gilt die Trennung "Inhalt" und "Technik" zu revidieren und die eigene Tätigkeit als Bewegung in mehreren parallelen Diskursräumen zu begreifen.

PDF dagegen strahlt die überzeugende Sicherheit des Bekannten aus, bietet Seiten- und Rückzugswege und stellt keine Anforderungen an informatische Kenntnisse. Es ist je nach Verwendungszusammenhang skalierbar von Internet über CD-ROM bis zum gedruckten Buch aufwendigster Ausstattung. Mögen seine einzelnen Möglichkeiten auch nicht wirklich innovativ sein, so werden sie sich doch im Alltag von Wissenschaftlern, Bibliotheken und Verlagen als Segnung erweisen. PDF ist eine Vereinbarung, die institutionell, finanziell und logistisch realisierbar ist.

Und was nun?

Der Gewinn, den elektronische Publikationen bringen, ist proportional der Menge in der sie vorliegen. Wenn die Arbeit in einer virtuellen Bibliothek sinnvoll sein soll, wird es nicht ausreichen nur alle Kataloge zu digitalisieren, wie dies bisher in mühseliger Kleinarbeit und mittels gigantischer Verschlagwortungskataloge geschieht. Das Tagespensum von 30 Titelaufnahmen pro Bibliothekar und Tag wird die Institutionen noch Jahrzehnte beschäftigen.

Eine digitale Volltextbibliothek erscheint angesichts der bisherigen Verfahrensweisen erst recht utopisch. Multimediale Publikationen zu archivieren und zugänglich zu machen ist eine verdienstvolle Sache, ebenso wie die Digitalisierung bestimmter Teilbestände, doch dies sind nur Placebos angesichts des eigentlichen Problems. Dieses liegt nämlich in der unendlichen Masse neuerscheinender Publikationen, die wie ausgeführt bei der Herstellung zwar in digitaler Form vorliegen, in dieser aber nicht archiviert werden. Angesichts der Omnipräsenz von Postscript und damit PDF darf die Entschuldigung inkompatibler Dateiformate nicht gelten: Der Produktionsprozeß der Publikationen selbst normiert an einem bestimmten Punkt das Dateiformat und genau an diesem Punkt sollten die Bibliotheken allen voran die Deutsche Bibliothek die Daten aufnehmen und standards durchsetzen statt über mögliche Dateiformate zu spekulieren. Dies sollte durchaus zustätzlich zum gedruckten Buch geschehen. Erst jedoch die Bücher zu archivieren, die einen vollständig digitalen Produktionsweg hinter sich haben und dann zögerlich mit der Retro-Erfassung zu beginnen, kann nur in einem unendlichen und unbezahlbaren Wettrennen enden.

 

1 Einen direkten Weg ohne HTML bietet "Panorama", ein Zusatzmodul für Internet-Browser, das SGML darstellen kann (http://www.softquad.com)

2 http://www.buchhandel.de/vdg

3 An einfachen, plattformübergreifenden SGML-Autorensystemen sind nur FrameMaker+SGML (http://www.adobe.com) und die "Author/Editor" (http://www.softquad.com) zu nennen, beide für Privatanwender unbezahlbar.

4 Ein schönes Ergebnis ist z.B. die jüngst erschienene erste CD des "Thesaurus musicarum italicarum" (http://candl.let.ruu.nl).

5 Werner Stephan: Digitalisierungsprojekte der Deutschen Bibliothek, in: Forum, Dialog mit Bibliotheken, 8, 1996, S. 25-32