Universität Duisburg-Essen
 Kopf Arial 3
Kopf Arial 3

Was ist Computerlinguistik?


Glad Mac


Computerlinguistik = Computer + Linguistik?


In der deutschen Sprache ist das Phänomen der Komposita - ein solches taucht z.B. im Titel auf der linken Seite des Gleichheitszeichens auf - eine vielbeklagte Eigenheit, nicht nur für Ausländer, die sich um das Erlernen dieser Sprache bemühen, sondern auch für Wissenschaftler, die sich um die Beschreibung des Deutschen kümmern. Komposita sind nämlich, soviel ist seit langem gewiss, nicht allein aus ihren Bestandteilen zu erklären; vielmehr ergibt sich die Bedeutung in den meisten Fällen erst aus einer Beziehung zwischen diesen Bestandteilen, die nicht explizit sprachlich in Erscheinung tritt. Wir haben es also mit einem Phänomen zu tun, bei dem die Bedeutung eines sprachlichen Ausdrucks nicht vollständig aus seinen Teilen rekonstruiert werden kann. Ein Ausweg aus diesem Dilemma könnte nun darin bestehen, eine endliche Menge von semantischen Beziehungen zwischen Wörtern zu definieren, aus der dann jeweils ein Element das 'fehlende' Glied eines Kompositums wäre. Könnten wir ferner Regeln angeben, welches Element bei zwei gegebenen Bestandteilen zu wählen sei, so wäre die Aufgabe der Kompositabeschreibung gelöst. Um beim Beispiel unseres Titels zu bleiben, so könnte man aus Eigenschaften der Wörter 'Computer' und 'Linguistik' etwa ableiten, dass es sich bei dem Kompositum 'Computerlinguistik' um eine Addition der beiden Wortbedeutungen handelt, nicht aber um die Teilbeziehung (also: eine Linguistik, die aus Computern besteht) oder eine Urheberbeziehung (also: eine Linguistik, die von Computern fabriziert wird). Leider sind solche einfachen Regularitäten nicht adäquat, wie man leicht an den oft zitierten Beispielen 'Schweineschnitzel' und 'Jägerschnitzel' nachvollziehen kann, die zwar ähnlich aufgebaut sind, jedoch offensichtlich nicht dieselbe Beziehung zwischen ihren Bestandteilen haben.

Nach diesen einleitenden Bemerkungen mag es den Anschein haben, als wollten wir mit diesem Beitrag Probleme und Erkenntnisse der deutschen Sprachwissenschaft erläutern und vertiefen. Dem ist jedoch nicht so; vielmehr wollen wir einen Überblick über das relativ junge Forschungsgebiet der Computerlinguistik geben, und hierbei auch auf die Besonderheiten des gleichnamigen Studienfaches an der Universität Duisburg - Essen / Standort Duisburg eingehen. Die kurze Skizzierung der Wortbildungsproblematik im ersten Absatz ist jedoch auch hierfür nützlich, denn im folgenden soll aufgezeigt werden, welche Beziehungen zwischen den Bestandteilen des Begriffs 'Computerlinguistik' als sinnvoll anzusehen sind; die Addition, und dies sollte das Fragezeichen im Titel andeuten, ist jedenfalls ausgesprochen fragwürdig.

Computerlinguistik und Linguistik


Der Begriff der 'Computerlinguistik' gehört zur Klasse der Determinativkomposita, bei denen der zweite Begriff durch den ersten näher bestimmt wird. Zur Charakterisierung der Linguistik sei hier nur soviel angeführt, dass die moderne, theoretische Linguistik es sich zum Ziel gesetzt hat, Regelsysteme zu erarbeiten, die mit formalen Methoden beschreiben, wie natürliche Sprachen aufgebaut sind, d.h. aus welchen Grundeinheiten sie bestehen, wie diese Einheiten zu komplexeren Ausdrücken zusammengesetzt werden können, wie sprachliche Ausdrücke Bedeutung erhalten und wie sie von Menschen verwendet werden (Syntax, Semantik, Pragmatik sind hier die auch in anderen Wissenschaften verwendeten Fachtermini). Dies muss man sich in ähnlicher Weise vorstellen, wie andere Bereiche unserer Umwelt durch wissenschaftliche Theorien beschrieben werden, beispielsweise wie Materie durch physikalische Theorien mittels geeigneter mathematischer Modelle beschrieben wird.

Die formale Orientierung der Linguistik gibt dann auch den ersten Anhaltspunkt für die Beziehung zwischen 'Computer' und 'Linguistik'. Der Computer ist eine Maschine, die mit formal spezifizierten Sachverhalten ganz hervorragend umgehen kann, oft sogar schneller und richtiger als dies Menschen können. Es liegt also nahe, eine formale Beschreibung natürlicher Sprachen mittels eines Computers auf ihre Tragfähigkeit zu überprüfen, und dies war in der Tat auch eine Motivation für Linguisten, sich dieses Instruments zu bedienen. [nach oben]

Natürliche Sprachen


Wichtiger für die derzeitige Computerlinguistik ist jedoch die Hypothese, dass natürliche Sprache für Menschen ein optimales Medium ist, um Probleme zu lösen. Mit formalen Sprachen, beispielsweise Programmiersprachen oder Logiksprachen, lassen sich alltägliche Aufgaben nur dann lösen, wenn man eine spezielle Ausbildung und Erfahrung im Umgang mit diesen Sprachen hat, und, wichtiger noch, eine formale Problemspezifikation überhaupt möglich ist. Will man z.B. jemandem mitteilen, wie man einen Käsekuchen backt, so ist das durch einen kurzen deutschen Text relativ einfach; ein entsprechendes Computer-Programm zu schreiben, dürfte auch für erfahrene Informatiker keine triviale Aufgabe sein.

Als eine Arbeitshypothese für die Computerlinguistik lässt sich also festhalten, dass die Leistungen von Computern auch über die typisch menschlichen Interaktionsformen genutzt werden sollten, insbesondere über natürlichsprachliche Problembeschreibungen. Dies bedeutet die Ersetzung formalsprachlicher Interaktion mit Computern durch natürlichsprachliche Interaktion, eine Zielsetzung, die derzeit allerdings nur in begrenztem Maße möglich ist. Der Grund für diese Einschränkung liegt vor allem an den Schwierigkeiten, natürliche Zusammenhänge durch formale Repräsentationen auszudrücken.

Generell stellt sich für die Linguistik wie auch für die Computerlinguistik die Frage, ob sprachliches Wissen als eine isolierte menschliche Fähigkeit existiert, oder ob die Fähigkeit, sprachliche Äußerungen zu verstehen und zu produzieren, nur im Zusammenhang mit 'Weltwissen' möglich ist. Können Menschen also z.B. einen Text, der einen Verkehrsunfall schildert, verstehen oder erzeugen, ohne dabei auf Wissen über die Straßenverkehrsordnung, über Geschwindigkeiten von Fußgängern, Radfahrern oder LKWs oder gar über die Eigenschaften nasser Straßen etwas zu wissen. Die theoretische Linguistik postuliert i.a. ein autonomes Sprachsystem, u.a. aus dem verständlichen Grund, die Gegebenheiten der Welt aus ihrer Theorie herauszuhalten. In der Computerlinguistik kann man 'Weltwissen' nicht so einfach ausschließen. Ein kurzes Beispiel soll als Illustration angeführt werden: man stelle sich vor, die beiden folgenden Texte sollen verstanden werden, sei es von einem Menschen oder einem Computer:

1. Peter hatte Hunger. Er schaute in den Kühlschrank.
2. Peter hatte Hunger. Er schaute in die 'Gelben Seiten'.

Für einen Menschen, der diese Texte liest, ist der Zusammenhang zwischen den beiden Sätzen jeweils unmittelbar klar. Das unangenehme Gefühl, das man im Deutschen mit 'Hunger' bezeichnet, ist Auslöser für zwei ganz verschiedene Aktionen, die jedoch beide geeignet sein können, den unliebsamen Zustand zu beheben. Für Menschen ist es ebenfalls ganz selbstverständlich, Fragen der Art "Was passierte dann?" zu beantworten, beispielsweise mit "Peter aß irgend etwas, das sich im Kühlschrank befindet" im ersten Fall und "Peter suchte sich ein Restaurant und rief dort an oder verfügte sich dorthin" im zweiten Fall. Diese menschliche Fähigkeit, ganz unbewusst auf Zusammenhänge zu schließen, die nicht explizit in Texten enthalten sind, lassen sich nur schwer erklären, wenn 'Weltwissen' ausgeklammert wird. Das zu Beginn angesprochene Problem der Kompositabedeutung gehört übrigens ebenfalls in die Kategorie der sprachimmanent schwer zu beschreibenden Phänomene.

Warum tauchen solche Problemfälle nun in formalen Sprachen nicht auf? Der Grund ist sehr einfach: formale Sprachen werden als künstliche Gebilde so definiert, dass sie keine Mehrdeutigkeiten enthalten, dass sie die in ihnen ausdrückbare Information vollständig und explizit enthalten, und dass ihre Interpretation von äußeren Faktoren, z.B. von der Zeit, unabhängig ist. Am Beispiel der Logik, die ursprünglich als formale Rekonstruktion natürlichsprachlicher Sätze gedacht war, lässt sich dies einfach zeigen: aus den beiden Aussagen 'Alle Vögel können fliegen' und 'Hansi ist ein Vogel' können wir logisch folgern 'Hansi kann fliegen'. Problematisch wird dies dann, wenn wir erfahren, dass Hansi ein Pinguin ist, für den die vogelspezifische Eigenschaft des Fliegens bekanntlich nicht gilt. Was hinter dieser so schwer zu formalisierenden Eigenart menschlichen Denkens steckt, wird oft als das 'Qualifikationsproblem' bezeichnet und hat in den vergangenen Jahrhunderten bereits Legionen von Philosophen um den verdienten Schlaf gebracht. Es besagt, kurz ausgedrückt, dass eine vollständige Definition der meisten Dinge unserer realen oder gedachten Umgebung nicht möglich ist, dass dies nur für künstliche Objekte, wie z.B. geometrische Gebilde, geht. Man kann sich eine beliebige Zahl von Gründen dafür ausdenken, dass ein bestimmter Vogel nicht fliegen kann, möchte auf der anderen Seite aber auch diese typische Vogeleigenschaft nicht ganz und gar über Bord werfen. Im Bereich der Wissensrepräsentation sind modifizierte Logiken entwickelt worden, in denen Schlussfolgerungen auch mit Ausnahmen und vorläufigen Annahmen operieren können. Dies ist eine Annäherung der streng mathematischen Logik an menschliche Denkweisen, wie wir sie in natürlichsprachlichen Äußerungen beobachten können. [nach oben]

Anwendungen der Computerlinguistik


Natürliche Sprache begegnet uns in zwei Formen: als gesprochene Sprache, also als akustisches Phänomen, und als geschriebener oder gedruckter Text. Menschen gehen ab einem gewissen Alter in ihrem alltäglichen Leben ohne Probleme mit diesen beiden Formen um. Für einen Computer sind gesprochene und geschriebene Sprache jedoch zunächst ganz unterschiedliche Daten: das kontinuierliche, kaum von Pausen unterbrochene Schallsignal enthält nicht die gliedernden Elemente der Schriftsprache, also Satzzeichen oder Leerzeichen zwischen Wörtern. Versucht man dies schriftlich nachzuahmen, dann würde sich etwa folgendes ergeben: "sosprechnwirnganzntach". Darüber hinaus abstrahiert die Schriftform von den Ausspracheeigenarten eines bestimmten Sprechers, die so individuell sind, dass gesprochene Sprache als Personenidentifikation in ähnlicher Weise wie Fingerabdrücke für einen bestimmten Menschen kennzeichnend sind. Man kann sagen, dass die geschriebene Sprache schon eine erste Interpretation der gesprochenen Sprache darstellt. Die Schriftform ist deshalb für einen Computer auch erheblich leichter zu verarbeiten. Auf Grund dieser Unterschiede haben sich zwei Richtungen der Computerlinguistik entwickelt, die bisher leider noch weitgehend getrennt arbeiteten: die eine, eher ingenieurwissenschaftliche Vorgehensweise, die gesprochene Sprache als physikalisches Schallsignal untersucht, und die andere, linguistisch orientierte Richtung, die sich vor allem mit schriftlichen Texten befasst. Mittlerweile wird versucht, diese Trennung aufzubrechen, beispielsweise durch das vom Bundesminister für Forschung und Technik geförderte Großprojekt VERBMOBIL, das gesprochene Umgangssprache vom Deutschen bzw. Japanischen ins Englische übersetzt.

Im folgenden befassen wir uns hauptsächlich mit der Richtung, die von der Schriftform ausgeht, weil sich die Duisburger Computerlinguistik hauptsächlich mit schriftlicher Interaktion beschäftigt.

  • Maschinelle Übersetzung
    Ein wichtiger Bereich, in dem man sich für die Praxis bedeutsame Forschungsergebnisse verspricht, ist die Maschinelle Übersetzung. Hierbei denkt kaum jemand daran, etwa ein Gedicht von Goethe ins Chinesische zu übersetzen, sondern man ist daran interessiert, Gebrauchstexte (z.B. Computerhandbücher, Bedienungsanleitungen, Wetterberichte) automatisch von einer Sprache in eine oder mehrere andere zu übersetzen. Hinter dieser Aufgabe stehen auch beträchtliche wirtschaftliche Interessen, denn ein wichtiges Element der Exportpolitik besteht auch in den Texten, durch die technische Produkte - von der Armbanduhr bis zum Computerprogramm - erst einsetzbar werden. So ist es auch nicht verwunderlich, wenn riesige Summen für Übersetzungssysteme gerade von Japan oder der Europäischen Gemeinschaft investiert werden. Die EG finanzierte z.B. seit 1982 das Projekt EUROTRA, das eines Tages die enorme Übersetzungsarbeit zwischen den 9 Einzelsprachen der Gemeinschaft leisten soll, oder sie zumindest für weite Bereiche unterstützen soll. Die im letzten Abschnitt angesprochene Frage, wieviel Weltwissen ein solches System benötigt, stellt sich auch hier: müssen die besonderen Eigenheiten der irischen Milchwirtschaft, des irischen Klimas bekannt sein, um die Übersetzung einer Neuregelung des irischen Butterexports möglich zu machen? Das Vorgehen eines Übersetzungssystems kann wie folgt skizziert werden: zu-nächst wird der Ursprungstext so weit analysiert, dass eine Darstellung seiner Bedeutung in einer formalen Sprache erreicht wird. Diese Darstellung wird dann für die speziellen Gegebenheiten der Zielsprache umgewandelt und hieraus wird ein Text der Zielsprache erzeugt. Ein sehr einfaches Beispiel für die Umwandlung ist die Stellung attributiver Adjektive, die sich im Deutschen vor dem Nomen finden, im Französischen jedoch dahinter ("das rote Haus" vs. "la maison rouge"). Schwieriger ist da schon die Übersetzung eines deutschen Kompositums in eine Sprache, die solche Wortgebilde nicht kennt. Ob es eines Tages Übersetzungssysteme geben wird, die vollautomatisch und mit zufriedenstellender Qualität ihre Arbeit verrichten, gehört in den Bereich der Spekulation. Die heute im Einsatz stehenden Systeme erfordern noch manuelle Eingriffe und die menschliche Überarbeitung der Übersetzung.

  • Natürlichsprachliche Dialogsysteme
    Als zweiter wichtiger Bereich der Computerlinguistik seien die Natürlichsprachlichen Dialogsysteme genannt. Es handelt sich hier um Systeme, mit denen ein Benutzer in natürlicher Sprache mit einem Computer interagiert, d.h. der Benutzer bedient sich der für ihn geläufigen Kommunikationsform. Besonders wichtig ist hier, dass nicht nur natürlichsprachliche Äußerungen so weit analysiert werden, dass der Computer 'etwas damit anfangen' kann, sondern dass auch die Ergebnisse in einer für den Benutzer verständlichen Weise ausgedrückt werden. Das kann z.B. so aussehen, dass eine umfangreiche Tabelle als Ergebnis einer Datenbankrecherche durch einen deutschen Text wiedergegeben wird, der die wesentliche Information der Tabelle enthält. Welches die wesentliche Information ist, kann nur bestimmt werden, wenn dem Benutzer ein bestimmtes Vorwissen und bestimmte Intentionen unterstellt werden, das System also über ein Modell des jeweiligen Benutzers oder einer Benutzerklasse verfügt. Im Unterschied zur Maschinellen Übersetzung erfordern Dialogsysteme eine Problemlösungskomponente, die z.B. auf eine Anfrage eine adäquate Antwort erzeugt. Ein Merkmal menschlicher Reaktionsstrategien ist die 'Überbeantwortung': man beantwortet eine bestimmte Frage nicht strikt wörtlich, sondern gibt zusätzliche, das Problemgebiet betreffende Antworten, wie dies im folgenden Beispiel deutlich wird:

    "Was kostet eine Rückfahrkarte nach Hamburg?"

    "120,- Euro." (direkte Antwort)

    "125,- Euro in der 2. Klasse inklusive IC-Zuschlag. Es gibt jedoch auch erheblich günstigere Sparpreise." (Überbeantwortung)

    Es sind heute bereits Systeme auf dem Markt, die es dem Benutzer gestatten, seine Fragen in einer natürlichen Sprache zu formulieren, die allerdings noch nicht sämtliche Ausdrucksmöglichkeiten z.B. des Deutschen umfasst.

  • Textanalysesysteme
    Als dritter und letzter Bereich sollen hier Textanalysesysteme genannt werden. Ein Großteil der für Menschen interessanten Informationen liegt in Textform vor, seien es Zeitungsberichte, Fachbücher oder Gesetzestexte. Um die ständig wachsende Papierflut nutzbar zu machen, erscheint es sinnvoll, die in diesen Texten enthaltenen Informationen automatisch zu extrahieren und sie in einem Recherchedialog bei Bedarf zur Verfügung zu stellen, bzw. für eine bestimmte Aufgabenstellung Hinweise auf relevante Texte zu erhalten. In ähnlicher Weise wie bei der Maschinellen Übersetzung motivieren ökonomische Interessen der sog. Informationsgesellschaft die Arbeit an Textanalysesystemen: sprachlich vermittelte Information ist nur dann nützlich, wenn man auf sie zugreifen kann. [nach oben]

Computerlinguistik als Wissenschaft


Auf Grund ihrer Bezeichnung könnte man meinen, die Computerlinguistik sei eine Vereinigung der Computerwissenschaft, der Informatik, mit der Linguistik. Dies stimmt so nicht. Computerlinguistik ist zwar eine interdisziplinäre Wissenschaft, aber die Anzahl der beteiligten Disziplinen ist erheblich höher. Neben der Informatik und der Linguistik sind auf jeden Fall noch die Psychologie und die Philosophie zu nennen. Aus diesen vier traditionellen Bereichen haben sich in den letzten 30 Jahren zwei weitere Forschungsrichtungen herausgebildet, die sich ebenfalls als interdisziplinär verstehen: die 'Künstliche Intelligenz' und die Kognitionswissenschaft. Auch zu diesen Bereichen steht die Computerlinguistik in enger Beziehung oder wird manchmal sogar unter sie subsumiert.

Der Bezug auf unterschiedliche Disziplinen mit jeweils unterschiedlicher Schwerpunktsetzung hat dann auch dazu geführt, dass allein in Deutschland drei wissenschaftliche Organisationen existieren, die für den Bereich Computerlinguistik zuständig sind:

  • der Fachausschuß 'Natürliche Sprache' im Fachbereich 'Künstliche Intelligenz' der Gesellschaft für Informatik (GI),

  • die Sektion 'Computerlinguistik' der Deutschen Gesellschaft für Sprachwissenschaft (DGfS) und die

  • Gesellschaft für Linguistische Datenverarbeitung (GLDV).

Jede dieser Organisationen veranstaltet Jahrestagungen und Workshops, gibt Fachzeitschriften, Bücher und Curriculumsempfehlungen heraus und hat auch ganz bestimmte Vorstellungen, was die Computerlinguistik eigentlich ausmacht. Neben diesen deutschen Institutionen existieren noch vergleichbare auf europäischer und internationaler Ebene. [nach oben]

Computerlinguistik - Studiengänge


Ebenso verschieden wie die Ausrichtungen auf andere Disziplinen, so verschieden sind auch die Möglichkeiten, an deutschen Hochschulen das Fach Computerlinguistik zu studieren. Dies zeigt sich auch in einer Reihe von unterschiedlichen Benennungen: Linguistische Informatik, Informationslinguistik, Linguistische Datenverarbeitung und natürlich auch Computerlinguistik, die Bezeichnung, die sich im deutschen Sprachraum weitestgehend durchgesetzt hat. Im allgemeinen ist Computerlinguistik kein eigenständiger Studiengang, sondern mit unterschiedlichem Gewicht an bestehende Studiengänge angebunden. Dies sind zumeist Informatik- oder Linguistikstudiengänge mit dem Diplom- bzw. Magisterabschluss. Die Zahl der Universitäten, an denen Computerlinguistik in der einen oder anderen Variante studiert werden kann, hat in den letzten Jahren erheblich zugenommen. Zählte man 1988 noch 11 Hochschulen im Bundesgebiet, so kommt man heute bereits auf etwa 20. Ein Grund für diese Expansion liegt sicher darin, dass Linguistik - und erst recht Computerlinguistik - in Kombination mit Informatik eine ausgesprochen fruchtbare Verbindung darstellt, bei der naturwissenschaftliche Vorgehensweisen mit geisteswissenschaftlichen verbunden werden. Die früher vorherrschende Sicht, dass Informatik eine rein naturwissenschaftliche oder gar ingenieurwissenschaftliche Disziplin ist, wird heute immer stärker in Frage gestellt. Ein zweiter Grund für die wachsende Bedeutung der Computerlinguistik liegt in den Berufsperspektiven. Hatte man vor 15 Jahren noch geglaubt, umfangreiche Forschungsprojekte paritätisch mit Linguisten und Informatikern besetzen zu können, die sich dann in gemeinsamer Arbeit problemlos ergänzen und so ein Projekt zum Erfolg führen, so ist man heute immer mehr davon überzeugt, dass eine fundierte, interdisziplinär orientierte Ausbildung notwendig ist. [nach oben]

Computerlinguistik in Duisburg


An der Universität Duisburg - Essen / Standort Duisburg kann seit dem Sommersemester 1991 das Nebenfach Computerlinguistik im Magisterstudiengang gewählt werden. Hierbei sollte das Hauptfach linguistisch ausgerichtet sein (Anglistik, Germanistik oder Romanistik mit Schwerpunkt Sprachwissenschaft) oder es sollten zumindest im zweiten Nebenfach die notwendigen linguistischen Grundlagen erworben werden. Die Grundlagen der Informatik bilden einen wesentlichen Anteil des Grundstudiums und auch im Hauptstudium können Informatikveranstaltungen mit Bezug zu computerlinguistischen Fragestellungen als Wahlveranstaltung besucht werden. Die spezifisch computerlinguistischen Anteile des Studienganges behandeln Methoden für die Beschreibung und Verarbeitung syntaktischer, semantischer und pragmatischer Phänomene der natürlichen Sprache. Hierbei kommen vor allem Ansätze aus der 'Künstlichen Intelligenz' zum Tragen, die durch kognitionswissenschaftliche und empirische Ansätze ergänzt werden. Eine detaillierte Beschreibung des Studienganges liegt in Form von Studienempfehlungen vor, die als Vorstufe für eine Studienordnung dienen. Im Bereich der Forschung sollen vor allem Beiträge zur Wissensrepräsentation, zu Textanalysesystemen und zur Textgenerierung erarbeitet werden.

Die Duisburger Computerlinguistik besteht personell z.Zt. aus einer Professur (Prof. Dr. Wolfgang Hoeppner), einem wissenschaftlichen Mitarbeiter (Nino Simunic, M.A.), einem Projektmitarbeiter
(Dr. Andreas Wagner) und einer Sekretärin (Gisela Ufermann). Sie finden unsere Mitarbeiter im LF-Gebäude in den Räumen LF 114/115/116 und der Seminarraum befindet sich in LF 226.

Weitere Links, Aktuelles, Hinweise zu Veranstaltung und Studienempfehlungen finden sich selbstverständlich auch auf dieser Homepage.

Zurück zum Seitenanfang

Letzte Änderung: Dienstag, 8.1.2008
© Universität Duisburg-Essen - Kontakt: armin.wiefels@uni-due.de