EmpiriST:
Shared Task zur automatischen linguistischen Annotation von CMC- und Social-Media-Sprachdaten

Projektbeteiligte:

Förderung:

Laufzeit:

  • 01.05.2015 – 31.08.2016

Projektbeschreibung und Ergebnisse:

Ziel der computerlinguistischen Shared Task war es, die Anpassung und Weiterentwiclung von Ansätzen für die automatische Verarbeitung von Sprachdaten aus Genres internetbasiertter Kommunikation (computer-mediated communication, social media) zu verbessern, um geeignete Verfahren für die automatische Segmentierung und Part-of-speech-Klassifikation von Sprachdaten im Bereich (a) des Aufbaus von linguistischen Korpora zur internetbasierten Kommunikation, (b) des Ausbaus existierender gegenwartssprachlicher Korpora zum Deutschen um entsprechende Komponenten, (c) der Erhebung und Verarbeitung von Webkorpora als Ressourcen für Anwendungen im Bereich Sprachtechnologie/Automatische Sprachverarbeitung.

Die Konzeption der Task geht zurück auf eine Inititative des DFG-Netzwerks Empirische Erforschung internetbasierter Kommunikation (Empirikom). In einem kompetitiven Setting trainierten die Teilnehmerinnen und Teilnehmer der Task ihre Systeme anhand vorgegebener, handannotierter Trainingsdaten. In einem begrenzten Zeitfenster waren die neu trainierten Modelle für die Tokenisierung und für das Part-of-speech-Tagging dann auf zuvor unbekannte Datensets anzuwenden. Die Güte der Ergebnisse wurde anschließend für die teilnehmenden System vergleichend evaluiert.

Sämtliche Ressourcen aus dem Projekt (Datensets, Tagset, Annotationsrichtlinien) sowie Beschreibungen der teilnehmenden Systeme stehen auf der Projekt-Website zur Verfügung und können weiter genutzt werden.

Ressourcen und Publikationen aus dem Projekt:

Konzeption und Ergebnisse der Shared Task im Überblick:

  • Beißwenger, Michael; Bartsch, Sabine; Evert, Stefan; Würzner, Kay-Michael (2016): EmpiriST 2015: A Shared Task on the Automatic Linguistic Annotation of Computer-Mediated Communication and Web Corpora. In: Proceedings of the 10th Web as Corpus Workshop (WAC-X) and the EmpiriST Shared Task. Stroudsburg: Association for Computational Linguistics (ACL Anthology W16-2606), 44-56.

Richtlinie und Tagset für die Tokenisierung und für das Part-of-speech-Tagging:

  • Beißwenger, Michael; Bartz, Thomas; Storrer, Angelika; Westpfahl, Swantje (2015): Tagset und Richtlinie für das Part-of-Speech-Tagging von Sprachdaten aus Genres internetbasierter Kommunikation. Guideline-Dokument aus dem Projekt "GSCL Shared Task: Automatic Linguistic Annotation of Computer-Mediated Communication / Social Media" (EmpiriST2015). (21 S.) PDF-Version
  • Beißwenger, Michael; Bartsch, Sabine; Evert, Stefan; Würzner, Kay-Michael (2015): Richtlinie für die manuelle Tokenisierung von Sprachdaten aus Genres internetbasierter Kommunikation. Guideline-Dokument aus dem Projekt "GSCL Shared Task: Automatic Linguistic Annotation of Computer-Mediated Communication / Social Media" (EmpiriST2015). (29 S.) PDF-Version

Projekt-Website mit sämtlichen Ressourcen aus dem Projekt:

Ressourcen: