Neben dem "Dortmunder Chat-Korpus", das eine aufbereitete Sammlung von Mitschnitten darstellt, existiert in Dortmund ein multimodales Chat-Korpus mit Transkripten zu Nutzeraktivitäten beim Chatten, das im Rahmen experimenteller Nutzerbeobachtungen mit Methoden des Screen Capturing und der Videobeobachtung erhoben wurde. Darüber hinaus halten wir auf einer separaten Seite eine Übersicht zu Korpora computervermittelter Kommunikation bereit.
Das Basiskorpus
Korpusgröße:
478 Dokumente mit insgesamt 140.240 Chat-Beiträgen bzw. 1.063.773 lfd. Wortformen
Zusammensetzung:
- Teilkorpus "Professionelle Chats (Hochschulkontext, Beratungs- und Medienkontexte"):
- 388 Dokumente mit insgesamt 51.978 Beiträgen bzw. 545.945 lfd. Wortformen
- (= 81 % aller Dokumente, 37 % aller Beiträge, 51 % aller lfd. Wortformen)
- Teilkorpus "Plauder-Chats (IRC und Webchat)":
- 90 Dokumente mit 88.262 Beiträgen bzw. 517.828 lfd. Wortformen
- (= 19 % aller Dokumente, 63 % aller Beiträge, 49 % aller lfd. Wortformen)
Detaillierte Bestandsübersicht:
Das Basiskorpus verzweigt unterhalb der beiden Großbereiche "Professionelle Chats" und "Plauder-Chats" in eine Reihe von Teilkorpora. Eine Übersicht zur Struktur des Basiskorpus inklusive einer detaillierten Bestandsdokumentation für sämtliche Teilkorpora (inklusive Angaben zur Herkunft und Materialien zum Kontext der einzelnen Mitschnitte) bietet die 88-seitige PDF-Datei bestandsliste-basiskorpus.pdf (648 KB)
Verfügbarkeit:
Das Basiskorpus enthält einige Mitschnitte, die aufgrund ihrer Thematik oder aus Gründen des Schutzes von Persönlichkeitsrechten nicht oder nur in anonymisierter Form öffentlich zugänglich gemacht werden können. Das Basiskorpus kann daher nur vor Ort in Dortmund genutzt werden. Als frei verfügbare Variante unseres Basiskorpus bieten wir mit dem Releasekorpus ein Korpus an, das nur diejenigen Teilkorpora (in z.T. anonymisierten Versionen) umfasst, die öffentlich zugänglich gemacht werden können.
Das Releasekorpus
Das Releasekorpus umfasst diejenigen Teilkorpora des Basiskorpus, die öffentlich zur Verfügung gestellt werden können. In einigen der Teilkorpora wurden Teilnehmernamen sowie Hinweise auf Personen und geographische Orte anonymisiert.
Korpusgröße:
383 Dokumente mit insgesamt 59.558 Chat-Beiträgen bzw. 548.067 lfd. Wortformen
Zusammensetzung:
- Teilkorpus "Professionelle Chats (Hochschulkontext, Beratungs- und Medienkontexte"):
- 362 Dokumente mit insgesamt 39.336 Beiträgen bzw. 429.369 lfd. Wortformen
- (= 95 % aller Dokumente, 66 % aller Beiträge, 78 % aller lfd. Wortformen)
- Teilkorpus "Plauder-Chats (IRC und Webchat)":
- 21 Dokumente mit 20.222 Beiträgen bzw. 118.698 lfd. Wortformen
- (= 5 % aller Dokumente, 34 % aller Beiträge, 22 % aller lfd. Wortformen)
Detaillierte Bestandsübersicht:
Das Releasekorpus umfasst all diejenigen Teile des Gesamtkorpus, die öffentlich zugänglich gemacht werden können. Eine Übersicht zur Struktur des Releasekorpus inklusive einer detaillierten Bestandsdokumentation für sämtliche Teilkorpora (inklusive Angaben zur Herkunft und Materialien zum Kontext der einzelnen Mitschnitte) bietet die 85-seitige PDF-Datei bestandsliste-releasekorpus.pdf (628 KB)
Verfügbarkeit:
Das Releasekorpus ist in zwei alternativen Formaten online verfügbar:
- einmal als ZIP-Datei (3.7 MB), die sämtliche Korpusdokumente als annotierte XML-Dokumente sowie darüber hinaus Bestandsübersicht (PDF), das Abfragewerkzeug STACCADo und das STACCADo-Handbuch enthält. Der Zugriff auf die Korpusdokumente erfolgt nach Entpacken der ZIP-Datei über das Abfragewerkzeug STACCADo, das aus dem Stammverzeichnis heraus gestartet werden kann. Die Suchergebnisse werden in Form von HTML-Dateien ausgegeben.
- zum anderen als Sammlung von HTML-Dokumenten, die direkt online eingesehen und ausgedruckt werden können. Im Gegensatz zur Download-Version sind in den HTML-Dokumenten keine Annotationen enthalten; sie können daher nicht mit STACCADo durchsucht werden.
Da das Gesamtkorpus das Basiskorpus mit umfasst, wird auch das Gesamtkorpus nicht öffentlich zur Verfügung gestellt. Es dient als Datgengrundlage für die Erzeugung verschiedener Korpuskompilationen wie etwa des Releasekorpus und der BalaCK-Korpora.
Die ausgewogenen Korpora (BalaCK)
Unter dem Namen BalaCK ('Balanced Chat-Korpora') stellen wir vier verschiedene Kompilationen aus unserem Release-Korpus bereit, die auf je unterschiedliche Art eine ausgewogene Zusammenstellung von Chat-Daten aus den Bereichen "Plauder"-Chat, E-Learning, Beratung und Politiker/Promi-Befragung beinhalten:
- Die BalaCK 1-Korpora umfassen einen weitgehend identischen Ausschnitt: Korpus 1a umfasst für jeden der vier Bereiche genau 15.000 lfd. Wortformen, Korpus 1b für jeden Bereich exakt 2.000 Beiträge. Beim Zuschnitt der Korpora wurden Systemmeldungen nicht berücksichtigt: Die Angaben "15.000 lfd. Wortformen" bzw. "2.000 Beiträge" beziehen sich ausschließlich auf Wortformen bzw. Beiträge, die von menschlichen Benutzern produziert wurden. Enthaltene Systemmeldungen wurden in den enthaltenen Dokumenten aber nicht gelöscht.
- Die BalaCK 2-Korpora sind die großen Brüder von BalaCK 1: Korpus 2a umfasst für jeden der vier Bereiche genau 45.000 lfd. Wortformen, Korpus 2b für jeden Bereich exakt 6.000 Beiträge.
Während die Dokumente in BalaCK 1 innerhalb der einzelnen Teilbereiche jeweils aus ein- und demselben Chat-Angebot stammen und somit jeweils Chat unter homogenen technologischen Rahmenbedingungen dokumentieren, entstammen die Daten in BalaCK 2 innerhalb der Teilbereiche unterschiedlichen Angeboten. Die BalaCK 1-Korpora haben somit den Vorteil einer größtmöglichen Einheitlichkeit innerhalb der Teilbereiche, die BalaCK 2-Korpora den Vorteil des größeren Umfangs.
Expertenchat-Vergleichskorpus
Das Expertenchat-Vergleichskorpus umfasst drei Dokumente, die jeweils einen Ausschnitt mit 37 Minuten Chatgeschehen aus drei verschiedenen chatbasierten Experten-Befragungen im Hochschulkontext beinhalten. Alle drei Befragungen drehten sich um Themen aus dem Bereich Chat-Kommunikation / Chat-Forschung und fanden im Rahmen von Seminaren zur computervermittelten Kommunikation bzw. Internetkultur statt.
Korpusgröße / Bestandsübersicht:
3 Dokumente mit insgesamt 8.225 lfd. Wortformen bzw. 749 Beiträgen (PDF-Datei bestandsliste-experten.pdf, 51 KB)
Verfügbarkeit und Download:
Das Expertenchat-Vergleichskorpus steht als ZIP-Datei (659 KB) zur Verfügung, die sämtliche Korpusdokumente als annotierte XML-Dokumente sowie darüber hinaus die Bestandsübersicht (PDF), das Abfragewerkzeug STACCADo und das STACCADo-Handbuch enthält. Der Zugriff auf die Korpusdokumente erfolgt nach Entpacken der ZIP-Datei über das Abfragewerkzeug STACCADo, das aus dem Stammverzeichnis heraus gestartet werden kann. Die Suchergebnisse werden in Form von HTML-Dateien ausgegeben.
Die drei Dokumente des Vergleichskorpus können aus der HTML-Version des Releasekorpus auch als HTML-Dateien aufgerufen und direkt im Browser betrachtet werden (Teilkorpus 1106000a).