Aktivitäten im Rahmen der Text Encoding Initiative (TEI)

​Seit Ende der 80er-Jahre entwickelt die Text Encoding Initiative (TEI) Formate für die Repräsentation textueller Daten in den Geisteswissenschaften. Ihre "Guidelines for Text Encoding", die erstmals 1990 aufgelegt wurden und seitdem von einer aktiven Community kontinuierlich weiterentwickelt werden, sind ein De-facto-Standard für das Encoding von digitalen Ressourcen im Bereich der Digital Humanities.

Tei

Die special interest group "computer-mediated communication":
Ziele und Ergebnisse

Als Ergebnis eines internationalen Workshops zum Aufbau und zur Annotation von Korpora internetbasierter Kommunikation wurde 2013 unter Beteiligung von Fachkolleginnen und -kollegen aus Deutschland, Frankreich, den Niederlanden und Italien beim TEI Council erfolgreich die Einrichtung einer special interest group (SIG) "computer-mediated communication" beantragt. Die Arbeitsgruppe widmet sich der Entwicklung von TEI-Modellen für die Strukturrepräsentation und linguistische Annotation von Sprachdaten aus Genres internetbasierter Kommunikation und aus Social-Media-Umgebungen.

Aus der Arbeit der SIG sind seitdem drei vollständige TEI-Schemas hervorgegangen, die in einer Reihe von Korpusprojekten zu verschiedenen Sprachen und Gernes erprobt wurden, die als Best Practices für die TEI-Annotation von Korpora internetbasierter Kommunikation dokumentiert sind und die als RNG-Schema für den Einsatz in Korpusprojekten zur Verfügung gestellt werden.

Aktuell sind die Mitglieder der SIG mit der Vorbereitung eines Vorschlags zur Erweiterung des TEI-Standards befasst, der, ausgehend von den vorliegenden und getesteten Schemas, Modelle für die Repräsentation digitaler Genres künftig als festen Bestandteil in den "Guidelines for Text Encoding" verankern soll.

Website und Ressourcen der SIG:

Publikationen mit Bezug zu den Ergebnissen und Aktivitäten der SIG:

  • Beißwenger, Michael (2018, im Druck): Internetbasierte Kommunikation und Korpuslinguistik: Repräsentation basaler Interaktionsformate in TEI. [Buchbeitrag]
     
  • Beißwenger, Michael; Wigham, Ciara et al. (2017): Connecting Resources: Which Issues Have to be Solved to Integrate CMC Corpora from Heterogeneous Sources and for Different Languages? In: Egon W. Stemle & Ciara R. Wigham (Eds.): Proceedings of the 5th Conference on CMC and Social Media Corpora for the Humanities (cmccorpora17), Bolzano, Italy, Oct 03-04, 2017, 52-55. [online access]
     
  • Beißwenger, Michael; Ermakova, Maria; Geyken, Alexander; Lemnitzer, Lothar; Storrer, Angelika (2012): A TEI Schema for the Representation of Computer-mediated Communication. In: Journal of the Text Encoding Initiative (jTEI), Issue 3 | November 2012 (DOI: 10.4000/jtei.476). Online article.
     
  • Chanier, Thierry, Celine Poudat, Benoit Sagot, Georges Antoniadis, Ciara Wigham, Linda Hriba, Ju-lien Longhi & Djamé Seddah (2014): The CoMeRe corpus for French: structuring and annotating heterogeneous CMC genres. Journal of language Technology and Computational Linguistics 29 (2), 1–30. [PDF, open access]
     
  • Margaretha, Eliza & Harald Lüngen (2014): Building Linguistic Corpora from Wikipedia Articles and Discussions. Journal of language Technology and Computational Linguistics 29 (2), 59–82. [PDF, open access]