Der Datenbestand des Dortmunder Chat-Korpus wurde anhand einer XML-Sprache für Recherchezwecke aufbereitet.

Grundprinzip von XML-Sprachen ist es, beliebige Textsegmente direkt im Dokument mit sogenannten Annotationen zu versehen und sie damit als Vertreter bestimmter Typen von Beschreibungseinheiten zu charakterisieren. Welche Beschreibungseinheiten vorgesehen sind, ist in der Spezifikation der verwendeten "Markup-Sprache" definiert. Weiterhin können über XML-Elemente Metadaten zu den in einem Dokument enthaltenen Daten und zum Dokument selbst in die Dokumente eingebracht werden.

Der Aufbau und die Grundelemente der für das Dortmunder Chat-Korpus entwickelten XML-Sprache sowie die Schritte von der Akquisition über die Voraufbereitung bis hin zur Annotation der Korpusdaten haben wir in einem separaten Dokument dargestellt:

Aufbereitung der Daten und Überführung in ein XML-Format

Die verwendete XML-Sprache ist bewisst einfach - und damit erweiterbar - gehalten. Die Korpusdokumente, die von dieser Website in verschiedenen Zusammenstellungen mit den zugehörigen Annotationen heruntergeladen werden können, können bei Bedarf um weitere Annotationen ergänzt werden.

Die Document Type Definition (DTD) der verwendeten XML-Sprache ist in folgender Textdatei wiedergegeben:

chatkorpus-dtd.txt