ChatCorpus2CLARIN:
Integration des Dortmunder Chat-Korpus in CLARIN-D

Kurzinformation



Projektbeteiligte:

  • Michael Beißwenger (Universität Duisburg-Essen) (Projektleitung)
  • Angelika Storrer (Universität Mannheim) (Projektleitung)
  • Axel Herold (Berlin-Brandenburgische Akademie der Wissenschaften)
  • Harald Lüngen (Institut für Deutsche Sprache, Mannheim)
  • Eric Ehrhardt (Universität Mannheim)

Förderung:

Laufzeit:

  • 01.05.2015 – 29.02.2016

Projektbeschreibung

Im Rahmen des CLARIN-D-Kurationsprojekts wurde ein existierendes Korpus zur deutschsprachigen internetbasierten Kommunikation, das Dortmunder Chat-Korpus (Beißwenger 2013), in die Infrastrukturen der europäischen Sprachressourceninfrastruktur-Initiative CLARIN integriert und in Hinblick auf die Interoperabilität mit anderen in CLARIN angebotenen Sprachressourcen (Textkorpora, andere Korpora internetbasierter Kommunikation) aufbereitet.

Zu diesem Zweck wurde die Ressource den folgenden Aufbereitungsschritten unterzogen:

  • Repräsentation in einem TEI-Format: Das komplette Korpus wurde in TEI remodelliert. Das dafür im Projekt entwickelte Repräsentationsschema (‚CLARIN-D TEI-CMC’) erfasst sämtliche Strukturinformationen und Metadaten, die in der XML-Annotation der Ausgangsressource enthalten waren, ist kompatibel mit den im DWDS-Projekt und im deutschen Referenzkorpus DeReKo verwendeten TEI-Schemata. Die Weiterentwicklung existierender Vorschläge zur Repräsentation internetbasierter Kommunikation in TEI war selbst Teil des Projekts. Das für das Korpus entwickelte Schema wird als ODD-Dokument und RNG-Datei zur Verfügung gestellt.
     
  • Morphosyntaktische Annotation: Das komplette Korpus wurde mit den Sprachverarbeitungswerkzeugen aus dem Projekt www.schreibgebrauch.de morphosyntaktisch annotiert und auf die Kategorien des Ziel-Tagsets ‚STTS_IBK’ (Beißwenger et al. 2015) angepasst. Ein Ausschnitt aus dem Korpus wurde von zwei ProjektmitarbeiterInnen manuell nachkorrigiert. Für die Nachannotation wurde eine von Thomas Schmidt (IDS Mannheim) für XML-strukturierte Chat-Daten angepasste Version der Annotationsumgebung OrthoNormal (Schmidt 2014) genutzt.
     
  • Integration in CLARIN-D: Die Zielressource wurde in den Repositories an der BBAW und am IDS archiviert und kann über die Korpusrecherchesysteme des DWDS-Portals und des DeReKo-Projekts (COSMAS II bzw. künftig KorAP) vergleichend mit den in den Korpussammlungen an der BBAW und am IDS vorhandenen Sprachressourcen (Textkorpora sowie weitere Korpora internetbasierter Kommunikation: Blog-Korpus, Wikipedia-Korpus, Usenet-Korpus) abgefragt und analysiert werden.
     
  • Rechtliche Klärung und Anonymisierung: Aus Projektmitteln wurde ein Rechtsgutachten in Auftrag gegeben, das prüfen sollte, unter welchen Bedingungen eine Distribution des Korpus im Rahmen der CLARIN-Infrastruktur rechtlich zulässig ist. Das Gutachten wurde von der Kanzlei iRights.law (John H. Weitzmann, Jan Schallaböck) besorgt (Beißwenger et al. 2017). Zur Umsetzung der Empfehlungen des Gutachtens wurde die komplette Ressource nachanonymisiert. Die Entwicklung eines dafür geeigneten Anonymisierungsschemas, das auf Best Practices zur Anonymiserung von Textkorpora und von anderen Korpors internetbasierter Kommunikation aufbaut, war selbst Teil der Projektarbeit (Lüngen et al. 2017). 

Die Ergebnisse des Projekts, die über die Ressource hinaus erzielt wurden, können für die Integration weiterer Sprachressourcen zur internetbasierten Kommunikation in die CLARIN-Infrastrukturen wiederverwendet werden. Das TEI-Repräsentationsschema steht für die eigene Nutzung und individuelle Anpassung zur Verfügung. Die Ergebnisse des Rechtsgutachtens sowie das Anonymisierungsschema sind publiziert. Das Tagset für die morphosyntaktische Annotation ist zusammen mit einer Annotationsrichtlinie über die Seiten des EmpiriST-Projekts abrufbar.

Schemas und Erfahrungen für die TEI-Repräsentation und für die morphosyntaktische Annotation fließen u.a. in das Projekt MoCoDa 2 ein, in dem seit Anfang 2017 eine Datenbank zur wiederholten, spendenbasierten Sammlung von Mitschnitten privater Kurznachrichtenkommunikation für Forschung und Lehre entsteht.

Projektergebnisse: Ressource und Publikationen

Ressource:

Ausgangsversion des Dortmunder Chat-Korpus (2005) zum Download und zum Online-Browsing: https://www.uni-due.de/germanistik/chatkorpus/

Zielressource: 'Chat-Korpus 2.1' (2016): um zusätzliche Annotationen erweiterte und in TEI repräsentierte Version der Ressource (2016), abrufbar über die CLARIN-Repositories an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) und des Instituts für Deutsche Sprache (IDS), Mannheim:

Darüber hinaus kann die Ressource via COSMAS-II bzw. KorAP als Teil der Korpussammlung des Deutschen Referenzkorpus (DeReKo) abgefragt werden. In Kürze wird zudem die Recherche über das Wortauskunftportal www.dwds.de der BBAW möglich sein.

Ausgewählte Publikationen mit Projektbezug:

  • Lüngen, Harald; Beißwenger, Michael; Herold, Axel; Storrer, Angelika (2016): Integrating corpora of computer-mediated communication in CLARIN-D: Results from the curation project ChatCorpus2CLARIN. In: Stefanie Dipper, Friedrich Neubarth & Heike Zinsmeister (eds.): Proceedings of the 13th Conference on Natural Language Processing (KONVENS 2016), 156-164. [PDF]
  • Beißwenger, Michael; Chanier, Thierry; Erjavec, Tomaž; Fišer, Darja; Herold, Axel; Lubešic, Nikola; Lüngen, Harald; Poudat, Céline; Stemle, Egon; Storrer, Angelika; Wigham, Ciara (2017): Closing a Gap in the Language Resources Landscape: Groundwork and Best Practices from Projects on Computer-mediated Communication in four European Countries. In: Lars Borin (Ed.): Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resources and Technology Infrastructure (Linköping University Electronic Conference Proceedings 136), 1-18.
  • Beißwenger, Michael; Lüngen, Harald; Schallaböck, Jan; Weitzmann, John H.; Herold, Axel; Kamocki, Pawel; Storrer, Angelika; Wildgans, Julia (2017): Rechtliche Bedingungen für die Bereitstellung eines Chat-Korpus in CLARIN-D: Ergebnisse eines Rechtsgutachtens. In: Michael Beißwenger (Hrsg.): Empirische Erforschung internetbasierter Kommunikation. Berlin/New York: de Gruyter (Reihe Empirische Linguistik / Empirical Lunguistics 9), 7-46.
  • Lüngen, Harald; Beißwenger, Michael; Herzberg, Laura; Pichler, Cathrin (2017): Anonymisation of the Dortmund Chat Corpus 2.1. In: Egon W. Stemle & Ciara R. Wigham (Eds.): Proceedings of the 5th Conference on CMC and Social Media Corpora for the Humanities (cmccorpora17), Bolzano, Italy, Oct 03-04, 2017, 21-24. [online access]