Die Generierung und der Austausch von wissenschaftlichen Arbeiten innerhalb größerer Forschungscommunities werden schwerpunktmäßig durch die klassischen Kanäle der Wissenschaft - Konferenzen, Veröffentlichungen und bilaterale Kommunikation - geprägt. Durch das Internet haben sich vielfältige zusätzliche Formen der Kommunikation zwischen Wissenschaftlern etabliert, etwa der Austausch über E-Mail oder Mailinglisten sowie der Zugriff auf zentrale Webserver. Allerdings wird das Potential, das das World Wide Web für ein vernetztes Wissensmanagement birgt, bisher nur unzureichend genutzt.
Das Projekt WIKINGER (WIKI Next Generation Enhanced Repository) wurde im Rahmen der BMBF-Ausschreibung "e-Science und vernetztes Wissensmanagement" beantragt. Es läuft seit Oktober 2005, für insgesamt 3 Jahre. Neben der Computerlinguistik in Duisburg ist an dem Projekt das
Fraunhofer Institut für Medienkommunikation (IMK) in St. Augustin (Projektkoordination) und die
Kommission für Zeitgeschichte (KfZG) in Bonn beteiligt.
Ziel des Projekts ist die Entwicklung einer technologischen Infrastruktur für einen effizienten Austausch wissenschaftlicher Ergebnisse. Diese Infrastruktur wird als Wiki organisiert, d.h. als Repositorium von miteinander verlinkten Dokumenten, die von der intendierten Benutzergruppe (hier die Mitglieder einer Forschungscommunity) online erstellt und geändert werden kann. Dies ermöglicht den verteilten Auf- und Ausbau eines Netzes von Informationen; das auf diese Weise repräsentierte Fachdomänen-Wissen ist somit effektiv zugänglich und kollaborativ aktualisierbar. Im Projekt wird zunächst die Pilot-Domäne Katholische Zeitgeschichte behandelt; die Portierbarkeit auf andere wissenschaftliche Domänen und industrielle Anwendungen ist jedoch ein wichtiges Projektziel.
Ein entscheidender Punkt für die effektive Suche nach Informationen ist hierbei, dass die erfassten Daten und Fakten sowie deren Verknüpfung mit Techniken des Semantic Web kodiert werden. Dadurch kann die Suche gezielt nach inhaltlichen Gesichtspunkten erfolgen, statt - wie beispielsweise bei Google - auf der Basis eines reinen Vergleichs von Zeichenfolgen, der in der Regel zu ungenauen Ergebnissen führt. Sucht man z.B. nach Informationen über die Stadt Essen und verwendet das Suchwort "Essen", so wird man neben "korrekten Treffern" auch zahlreiche Dokumente zum Thema Nahrungsaufnahme erhalten; andererseits werden relevante Texte verfehlt, die den Begriff "Essen" selbst nicht enthalten (weil z.B. lediglich bestimmte Stadtteile namentlich genannt werden). Durch den Aufbau eines sog. semantisches Netzes, welches Informationen gemäß ihrer Bedeutung kategorisiert und verknüpft, können relevante Fakten zuverlässig gefunden werden.
Ein zweites wichtiges Projektziel ist die Entwicklung von Verfahren zum (semi-)automatischen Aufbau eines solchen semantischen Wissensnetzes aus einschlägigen Dokumenten der jeweiligen Fachdomäne. Ohne Automatisierung wäre die Fülle der zu erfassenden Information nicht handhabbar. Aus diesem Grund werden maschinelle Lernverfahren eingesetzt, die Informationen aus einer großen Kollektion von Fachtexten extrahieren. An diesem Punkt setzt der spezifische Beitrag der Duisburger Computerlinguistik an. Hier sind in jüngster Zeit erfolgreich maschinelle Lernverfahren zur Eigennamen-Erkennung (Named Entity Recognition) entwickelt worden, d.h. Methoden zur automatischen Erkennung von Personen, Orten oder Organisationen in Texten. Im Rahmen von WIKINGER werden diese Methoden verfeinert und ausgeweitet, sodass auch andere Kategorien, z.B. historische Ereignisse, erkannt werden können. Des Weiteren wird hier die Software
WALU (WIKINGER Annotations- und Lern-Umgebung) entwickelt, mit deren Hilfe konkrete Text-Vorkommen der zu erfassenden Kategorien komfortabel (und zu einem späteren Zeitpunkt halb-automatisch) annotiert werden können. Derartig annotierte Daten enthalten z.B. die Information, ob es sich bei einem Vorkommen des Wortes "Essen" in einem bestimmten Text um einen Ort handelt oder nicht. Solche Daten sind erforderlich, um die maschinellen Lernverfahren zu trainieren, d.h. sie auf eine bestimmte Sprache und Domäne anzupassen. Eine erste Version von WALU ist inzwischen implementiert und wird z.Zt. zum Annotieren von Texten aus dem Bereich der Katholischen Zeitgeschichte eingesetzt.
WIKINGER-Homepage:
www.wikinger-escience.de