Das Korpus: Dokumentation und Download

Das Dortmunder Chat-Korpus liegt in neun verschiedenen Versionen vor. Neben dem Basiskorpus und dem Gesamtkorpus, die nur in Dortmund vor Ort genutzt werden können, haben wir sechs Kompilationen erzeugt, die jeweils unterschiedlich zugeschnittene Ausschnitte aus dem Gesamtkorpus umfassen und die wir auf dieser Seite zum Download und zur freien Nutzung bereitstellen. Daneben liegen die Inhalte des Releasekorpus komplett in einer HTML-Version vor, die direkt im Browser aufgerufen werden kann. Alle anderen auf dieser Seite verfügbaren Korpusversionen können - zusammen mit dem Korpus-Abfragewerkzeug STACCADo - zur Offline-Benutzung vollständig heruntergeladen werden. Im Gegensatz zur HTML-Version können sie auf vielfältige Weise automatisch durchsucht und statistisch ausgewertet werden.

  1. Das Basiskorpus
  2. Das Releasekorpus als Online-Version (HTML) und als abfragbare Download-Version (XML)
  3. Das Gesamtkorpus
  4. Die ausgewogenen Korpora (ausgewogen nach Anwendungskontexten):
  5. Kleines Expertenchat-Vergleichskorpus: 3 x 37 Minuten aus drei verschiedenen Experten-Fragestunden im E-Learning-Kontext

Assoziierte Ressourcen:

Neben dem "Dortmunder Chat-Korpus", das eine aufbereitete Sammlung von Mitschnitten darstellt, existiert in Dortmund ein multimodales Chat-Korpus mit Transkripten zu Nutzeraktivitäten beim Chatten, das im Rahmen experimenteller Nutzerbeobachtungen mit Methoden des Screen Capturing und der Videobeobachtung erhoben wurde. Darüber hinaus halten wir auf einer separaten Seite eine Übersicht zu Korpora computervermittelter Kommunikation bereit.


Das Basiskorpus

Korpusgröße:

478 Dokumente mit insgesamt 140.240 Chat-Beiträgen bzw. 1.063.773 lfd. Wortformen

Zusammensetzung:

Teilkorpus "Professionelle Chats (Hochschulkontext, Beratungs- und Medienkontexte"):
388 Dokumente mit insgesamt 51.978 Beiträgen bzw. 545.945 lfd. Wortformen
(= 81 % aller Dokumente, 37 % aller Beiträge, 51 % aller lfd. Wortformen)
Teilkorpus "Plauder-Chats (IRC und Webchat)":
90 Dokumente mit 88.262 Beiträgen bzw. 517.828 lfd. Wortformen
(= 19 % aller Dokumente, 63 % aller Beiträge, 49 % aller lfd. Wortformen)

Detaillierte Bestandsübersicht:

Das Basiskorpus verzweigt unterhalb der beiden Großbereiche "Professionelle Chats" und "Plauder-Chats" in eine Reihe von Teilkorpora. Eine Übersicht zur Struktur des Basiskorpus inklusive einer detaillierten Bestandsdokumentation für sämtliche Teilkorpora (inklusive Angaben zur Herkunft und Materialien zum Kontext der einzelnen Mitschnitte) bietet die 88-seitige PDF-Datei bestandsliste-basiskorpus.pdf (648 KB)

Verfügbarkeit:

Das Basiskorpus enthält einige Mitschnitte, die aufgrund ihrer Thematik oder aus Gründen des Schutzes von Persönlichkeitsrechten nicht oder nur in anonymisierter Form öffentlich zugänglich gemacht werden können. Das Basiskorpus kann daher nur vor Ort in Dortmund genutzt werden. Als frei verfügbare Variante unseres Basiskorpus bieten wir mit dem Releasekorpus ein Korpus an, das nur diejenigen Teilkorpora (in z.T. anonymisierten Versionen) umfasst, die öffentlich zugänglich gemacht werden können.


Das Releasekorpus

Das Releasekorpus umfasst diejenigen Teilkorpora des Basiskorpus, die öffentlich zur Verfügung gestellt werden können. In einigen der Teilkorpora wurden Teilnehmernamen sowie Hinweise auf Personen und geographische Orte anonymisiert.

Korpusgröße:

383 Dokumente mit insgesamt 59.558 Chat-Beiträgen bzw. 548.067 lfd. Wortformen

Zusammensetzung:

Teilkorpus "Professionelle Chats (Hochschulkontext, Beratungs- und Medienkontexte"):
362 Dokumente mit insgesamt 39.336 Beiträgen bzw. 429.369 lfd. Wortformen
(= 95 % aller Dokumente, 66 % aller Beiträge, 78 % aller lfd. Wortformen)
Teilkorpus "Plauder-Chats (IRC und Webchat)":
21 Dokumente mit 20.222 Beiträgen bzw. 118.698 lfd. Wortformen
(= 5 % aller Dokumente, 34 % aller Beiträge, 22 % aller lfd. Wortformen)

Detaillierte Bestandsübersicht:

Das Releasekorpus umfasst all diejenigen Teile des Gesamtkorpus, die öffentlich zugänglich gemacht werden können. Eine Übersicht zur Struktur des Releasekorpus inklusive einer detaillierten Bestandsdokumentation für sämtliche Teilkorpora (inklusive Angaben zur Herkunft und Materialien zum Kontext der einzelnen Mitschnitte) bietet die 85-seitige PDF-Datei bestandsliste-releasekorpus.pdf (628 KB)

Verfügbarkeit:

Das Releasekorpus ist in zwei alternativen Formaten online verfügbar:

  • einmal als ZIP-Datei (3.7 MB), die sämtliche Korpusdokumente als annotierte XML-Dokumente sowie darüber hinaus Bestandsübersicht (PDF), das Abfragewerkzeug STACCADo und das STACCADo-Handbuch enthält. Der Zugriff auf die Korpusdokumente erfolgt nach Entpacken der ZIP-Datei über das Abfragewerkzeug STACCADo, das aus dem Stammverzeichnis heraus gestartet werden kann. Die Suchergebnisse werden in Form von HTML-Dateien ausgegeben.
  • zum anderen als Sammlung von HTML-Dokumenten, die direkt online eingesehen und ausgedruckt werden können. Im Gegensatz zur Download-Version sind in den HTML-Dokumenten keine Annotationen enthalten; sie können daher nicht mit STACCADo durchsucht werden.

Das Gesamtkorpus

Das Gesamtkorpus umfasst den Bestand des Basiskorpus sowie zusätzlich alternative Varianten derjenigen Teilkorpora, die für die Veröffentlichung im Releasekorpus anonymisiert wurden.

Korpusgröße:

524 Dokumente mit insgesamt 152.901 Chat-Beiträgen bzw. 1.150.001 lfd. Wortformen (davon 44 Dokumente mit 12.343 Beiträgen bzw. 82.533 lfd. Wortformen als Dopplungen aufgrund Anonymisierung).

Detaillierte Bestandsübersicht:

Eine Übersicht zur Struktur des Gesamtkorpus inklusive einer detaillierten Bestandsdokumentation für sämtliche Teilkorpora (inklusive Angaben zur Herkunft und Materialien zum Kontext der einzelnen Mitschnitte) bietet die 94-seitige PDF-Datei
bestandsliste-gesamtkorpus.pdf (675 KB)

Verfügbarkeit:

Da das Gesamtkorpus das Basiskorpus mit umfasst, wird auch das Gesamtkorpus nicht öffentlich zur Verfügung gestellt. Es dient als Datgengrundlage für die Erzeugung verschiedener Korpuskompilationen wie etwa des Releasekorpus und der BalaCK-Korpora.


Die ausgewogenen Korpora (BalaCK)

Unter dem Namen BalaCK ('Balanced Chat-Korpora') stellen wir vier verschiedene Kompilationen aus unserem Release-Korpus bereit, die auf je unterschiedliche Art eine ausgewogene Zusammenstellung von Chat-Daten aus den Bereichen "Plauder"-Chat, E-Learning, Beratung und Politiker/Promi-Befragung beinhalten:

  • Die BalaCK 1-Korpora umfassen einen weitgehend identischen Ausschnitt: Korpus 1a umfasst für jeden der vier Bereiche genau 15.000 lfd. Wortformen, Korpus 1b für jeden Bereich exakt 2.000 Beiträge. Beim Zuschnitt der Korpora wurden Systemmeldungen nicht berücksichtigt: Die Angaben "15.000 lfd. Wortformen" bzw. "2.000 Beiträge" beziehen sich ausschließlich auf Wortformen bzw. Beiträge, die von menschlichen Benutzern produziert wurden. Enthaltene Systemmeldungen wurden in den enthaltenen Dokumenten aber nicht gelöscht.

  • Die BalaCK 2-Korpora sind die großen Brüder von BalaCK 1: Korpus 2a umfasst für jeden der vier Bereiche genau 45.000 lfd. Wortformen, Korpus 2b für jeden Bereich exakt 6.000 Beiträge.

Während die Dokumente in BalaCK 1 innerhalb der einzelnen Teilbereiche jeweils aus ein- und demselben Chat-Angebot stammen und somit jeweils Chat unter homogenen technologischen Rahmenbedingungen dokumentieren, entstammen die Daten in BalaCK 2 innerhalb der Teilbereiche unterschiedlichen Angeboten. Die BalaCK 1-Korpora haben somit den Vorteil einer größtmöglichen Einheitlichkeit innerhalb der Teilbereiche, die BalaCK 2-Korpora den Vorteil des größeren Umfangs.


Die BalaCK 1-Korpora

Korpusgröße und Zusammensetzung:

BalaCK 1a:
60.000 lfd. Wortformen, die von menschlichen Benutzern produziert wurden (71.661 lfd. Wortformen bzw. 10.045 Beiträge insgesamt):
  • 15.000 lfd. Wortformen aus dem Bereich "Plauder"-Chat
  • 15.000 lfd. Wortformen aus dem Bereich Chats im Hochschulkontext
  • 15.000 lfd. Wortformen aus dem Bereich Beratung
  • 15.000 lfd. Wortformen aus dem Bereich Chatbasierte Politiker-/Prominenten-Befragungen
BalaCK 1b:
8.000 Beiträge, die von menschlichen Benutzern produziert wurden (9.215 Beiträge bzw. 75.124 lfd. Wortformen insgesamt):
  • 2.000 Beiträge aus dem Bereich "Plauder"-Chat
  • 2.000 Beiträge aus dem Bereich Chats im Hochschulkontext
  • 2.000 Beiträge aus dem Bereich Beratung
  • 2.000 Beiträge aus dem Bereich Chatbasierte Politiker-/Prominenten-Befragungen

Detaillierte Bestandsübersicht:

Verfügbarkeit:

Die BalaCK 1-Korpora stehen in Form von ZIP-Dateien zur Verfügung, die sämtliche Korpusdokumente als annotierte XML-Dokumente sowie darüber hinaus die zugehörigen Bestandsübersichten (PDF), das Abfragewerkzeug STACCADo sowie das STACCADo-Handbuch enthalten. Der Zugriff auf die Korpusdokumente erfolgt nach Entpacken der ZIP-Datei über das Abfragewerkzeug STACCADo, das aus dem Stammverzeichnis heraus gestartet werden kann. Die Suchergebnisse werden in Form von HTML-Dateien ausgegeben.

Download:


Die BalaCK 2-Korpora

Korpusgröße und Zusammensetzung:

BalaCK 2a:
180.000 lfd. Wortformen, die von menschlichen Benutzern produziert wurden (200.828 lfd. Wortformen bzw. 26.669 Beiträge insgesamt):
  • 45.000 lfd. Wortformen aus dem Bereich "Plauder"-Chat
  • 45.000 lfd. Wortformen aus dem Bereich Chats im Hochschulkontext
  • 45.000 lfd. Wortformen aus dem Bereich Beratung
  • 45.000 lfd. Wortformen aus dem Bereich Chatbasierte Politiker-/Prominenten-Befragungen
BalaCK 2b:
24.000 Beiträge, die von menschlichen Benutzern produziert wurden (27.066 Beiträge bzw. 237.686 lfd. Wortformen insgesamt):
  • 6.000 Beiträge aus dem Bereich "Plauder"-Chat
  • 6.000 Beiträge aus dem Bereich Chats im Hochschulkontext
  • 6.000 Beiträge aus dem Bereich Beratung
  • 6.000 Beiträge aus dem Bereich Chatbasierte Politiker-/Prominenten-Befragungen

Detaillierte Bestandsübersicht:

Verfügbarkeit:

Die BalaCK 2-Korpora stehen in Form von ZIP-Dateien zur Verfügung, die sämtliche Korpusdokumente als annotierte XML-Dokumente sowie darüber hinaus die zugehörigen Bestandsübersichten (PDF), das Abfragewerkzeug STACCADo sowie das STACCADo-Handbuch enthalten. Der Zugriff auf die Korpusdokumente erfolgt nach Entpacken der ZIP-Datei über das Abfragewerkzeug STACCADo, das aus dem Stammverzeichnis heraus gestartet werden kann. Die Suchergebnisse werden in Form von HTML-Dateien ausgegeben.

Download:


Expertenchat-Vergleichskorpus

Das Expertenchat-Vergleichskorpus umfasst drei Dokumente, die jeweils einen Ausschnitt mit 37 Minuten Chatgeschehen aus drei verschiedenen chatbasierten Experten-Befragungen im Hochschulkontext beinhalten. Alle drei Befragungen drehten sich um Themen aus dem Bereich Chat-Kommunikation / Chat-Forschung und fanden im Rahmen von Seminaren zur computervermittelten Kommunikation bzw. Internetkultur statt.

Korpusgröße / Bestandsübersicht:

3 Dokumente mit insgesamt 8.225 lfd. Wortformen bzw. 749 Beiträgen (PDF-Datei bestandsliste-experten.pdf, 51 KB)

Verfügbarkeit und Download:

Das Expertenchat-Vergleichskorpus steht als ZIP-Datei (659 KB) zur Verfügung, die sämtliche Korpusdokumente als annotierte XML-Dokumente sowie darüber hinaus die Bestandsübersicht (PDF), das Abfragewerkzeug STACCADo und das STACCADo-Handbuch enthält. Der Zugriff auf die Korpusdokumente erfolgt nach Entpacken der ZIP-Datei über das Abfragewerkzeug STACCADo, das aus dem Stammverzeichnis heraus gestartet werden kann. Die Suchergebnisse werden in Form von HTML-Dateien ausgegeben.

Die drei Dokumente des Vergleichskorpus können aus der HTML-Version des Releasekorpus auch als HTML-Dateien aufgerufen und direkt im Browser betrachtet werden (Teilkorpus 1106000a).


Multimodales Chat-Korpus

Im Rahmen des Projekts "Sprachhandlungskoordination in der Chat-Kommunikation" von M. Beißwenger (2004-2006) wurde ein Korpus mit multimodalen Beobachtungsdaten zur Kommunikationsteilhabe beim Chatten erhoben. Das Korpus umfasst 25 Std. 13 Minuten an Screen Capturing-Daten, die für den Zeitraum der Chat-Teilnahme eines Chatters sämtliche Schnittstellenmanipulationen (Tastatureingaben und Mausaktivitäten) als Bewegtbild-Aufzeichnung wiedergeben, sowie 28 Std. 43 Minuten an Videoafzeichnungen, welche die Gesichtspartie der einzelnen Chatter (insbesondere das Blickrichtungsverhalten) dokumentieren. Die Daten wurden im Rahmen eines experimentellen Settings für 32 TeilnehmerInnen an 18 Einzelchats mit einer Länge von insgesamt 11 Std. 26 Minuten erhoben. Ein Teil der Daten wurde für Analysezwecke transkribiert. Vier Volltranskripte, die für jeweils eine(n) Probanden/in die Entwicklung des Bildschirmverlaufsprotokolls, die am Bildschirm bezeugten Textproduktionsaktivitäten sowie das Blickrichtungsverhalten beschreiben, können unter http://www.michael-beisswenger.de/sprachhandlungskoordination/ eingesehen und in verschiedenen Formaten heruntergeladen werden.