Institutskolloquium WS 2013/14

Prof. Dr. Andreas Blätte:

Die Täterperspektive der maschinellen Textverarbeitung: PolMine-Werkstattbericht zu Infrastruktur, Verfahren der Korpusanalyse und einem Forschungsszenario

In der aktuellen Diskussion der NSA-Abhörpraktiken heißt es: "Die NSA ließt mit". Angesichts der zu verarbeitenden Textmassen aus Emails, SMS-Nachrichten, Beiträgen in sozialen Medien ist die Formulierung naiv. Doch wie funktioniert 'natural language processing' bzw. 'maschinelle Textverarbeitung'? Die Fähigkeiten der NSA oder von Google sind im wissenschaftlichen Kontext natürlich nicht darstellbar. Gleichwohl eröffnet Sprachtechnologie auch für die Politikwissenschaft Möglichkeiten, die ich diskutieren möchte. Im PolMine-Projekt sind mit Plenarprotokollkorpora zunächst Textressourcen aufgebaut worden, die mit einem Umfang von insgesamt mehr als 300 Millionen Wörtern als größere Korpora gelten können. Außerdem wurde eine Hard- und Software-Infrastruktur aufgebaut, mit der sich große Textmengen ausreichend effizient verarbeiten lassen. Es entsteht eine Bibliothek mit Auswertungsroutinen, die eine Erkennung von Sprachgebrauchsmustern mit quantifizierenden Mitteln ermöglicht, die aber immer den Weg zurück zum Text offen hält. Als konkretes Analyseszenario dient mir die Frage, inwiefern Bundestagsabgeordnete mit Migrationshintergrund in ihren Debattenbeiträgen als Anwälte der Einwanderer und/oder als migrations- bzw. integrationspolitische Experten auftreten. Diese Fragestellung ist im Kontext der Diskussion um eine substantielle Repräsentation von Einwanderergruppen durch Abgeordnete angesiedelt, die einer sichtbaren Minderheit angehören.