Universität Duisburg-Essen
 Kopfgrafik Forschung
Kopfgrafik Forschung

Forschung der Computerlinguistik in Duisburg

Semantische Erschließung, Text Mining und Informationsextraktion

Nahezu mühelos können mit der menschlichen Sprache einfache, aber auch hochkomplexe Sachverhalte kommuniziert werden. Durch das Niederschreiben können sprachliche Formulierungen langfristig fixiert werden, so dass die enthaltenen Informationen zu jedem beliebigen Zeitpunkt abrufbar sind. Dank der großen Fortschritte in der Informationstechnologie liegt heutzutage eine Vielzahl von Texten in digitaler Form vor. Damit können sie direkt auf Computern bearbeitet und/oder über Netzwerke anderen Benutzern zur Verfügung gestellt werden. Für viele Aufgaben ist die Menge an digital vorliegenden Informationen jedoch derartig umfangreich, dass sie für Menschen unüberschaubar und kaum mehr effizient nutzbar ist. Deshalb sind Computerprogramme wünschenswert, die den gezielten Informationszugriff aus einer großen Textmenge unterstützen.
Herkömmliche Suchmaschinen leisten hierzu einen wertvollen Beitrag, beschränken sich jedoch auf die Auswahl von Dokumenten, welche zu einer Menge von Suchwörtern relevant erscheinen. Für komplexere Informationsbedürfnisse sind sie jedoch weniger geeignet. Computerlinguistische Verfahren bilden die Grundlage für die weitergehende Erschließung von Texten. Ein Dokumentenbestand kann beispielsweise mittels Personen- und Ortsregister semantisch erschlossen werden. Die computerlinguistische Eigennamenerkennung (Named Entity Recognition) automatisiert diese Erschließung. Werden weitere Angaben zu den Einträgen des Personenregisters benötigt, so kann die computerlinguistische Informationsextraktion Angaben wie beispielsweise Beruf, Mitgliedschaft in Organisationen, Geburtsort etc. in den Texten aufspüren und dem Personenregister hinzufügen.

Die Duisburger Computerlinguistik entwickelt Verfahren zur semantischen Texterschließung. Die Schwerpunkte hierbei bilden:
  • Der Einsatz und die Erweiterung maschineller Lernverfahren zur semantischen Erschließung von unstrukturierten und semi-strukturierten Texten mittels ressourcenarmer Verfahren.

  • Die Erforschung datenorientierter Repräsentationen sprachlicher Einheiten: Datenorientierte Repräsentationen beschränken sich im Gegensatz zu modell- bzw. regelbasierten Repräsentationen auf Eigenschaften, die sich direkt in den Daten beobachten lassen und erleichtern deshalb die Übertragbarkeit von Systemen auf neue Textsorten, Domänen und andere Sprachen.

  • Der praktische Einsatz semantischer Erschließungsverfahren zur Extraktion relevanter Begriffe und Eigennamen. Im Rahmen von WIKINGER werden damit deutschsprachige Monographien aus dem Bereich der Geschichtswissenschaft verarbeitet. Die so extrahierten Einheiten dienen als Grundlage zur semi-automatischen Entwicklung eines semantischen Netzes. Mit den gleichen Verfahren wird jedoch auch an der Erkennung von biomedizinischen Namen (z. B. DNA, RNA, Proteine etc.) in englischen Texten gearbeitet.

  • Werkzeuge zur effizienten Kommunikation und Erfassung von Systemanforderungen: Die Anpassung eines sprachverarbeitenden Systems an eine neue Aufgabe erfordert es, Wissen über die Aufgabenstellung, domänenspezifische Aufgaben und Phänomene zu erfassen. Eine Alternative zur formalen Modellierung von Sachverhalten bietet die beispielsbasierte Kommunikation von Aufgaben und Wissen. Die beispielsbasierte Kommunikation ermöglicht es, implizit vorhandenes Wissen ohne Einarbeitung in eine formale Notation direkt zu kommunizieren. Ein Beispiel hierfür ist die im Rahmen von WIKINGER entwickelte Annotationsumgebung WALU.
Letzte Änderung: Montag, 24.9.2007
© Universität Duisburg-Essen - Kontakt: armin.wiefels@uni-due.de