Korpus-Recherche mit STACCADo


Was ist STACCADo?

STACCADo (Search Tool for Annotated Chat Corpus Analyses Dortmund) ist eine GUI-basierte Java-Anwendung, die speziell für die Formulierung und Durchführung von Suchanfragen über dem Datenbestand des Dortmunder Chat-Korpus programmiert wurde.

STACCADo kann im Bereich Korpora / Download zusammen den frei verfügbaren Korpusausschnitten heruntergeladen und anschließend offline zur Korpusrecherche verwendet werden. Ein ausführliches Benutzerhandbuch ist im Download enthalten.

STACCADo wurde konzipiert von Michael Beißwenger, Angelika Storrer & Bianca Stockrahm. Die Programmierung und Implementierung besorgte Bianca Stockrahm.


Was kann STACCADo?

STACCADo bietet mehr als Volltextsuche:
STACCADo bietet für die Korpusrecherche verschiedene interessante Suchoptionen, die über reine Volltextabfragen hinausgehen. Zum einen können beliebige Teilkorpora oder auch nur einzelne Korpusdokumente stringbasiert durchsucht werden - d.h. jeder Chat-Beitrag wird auf das Vorkommen eines bestimmten Suchausdrucks hin überprüft. Treffer für diesen Suchausdruck werden in ein Ergebnisdokument geschrieben, das im HTML-Format ausgegeben wird und in jedem Internetbrowser angezeigt werden kann. Suchausdrücke können entweder einzelne Wörter oder auch komplexe, durch boolesche Operatoren (z.B. UND und ODER) verknüpfte Suchterme sein. Auch die Möglichkeit der Suche mit Platzhaltern (sog. "Wildcards" oder "Jokerzeichen") ist implementiert.

Filteroptionen für Beitrags-Typen und typische Stilelemente:
Neben der Korpusrecherche anhand von Suchausdrücken kann STACCADo beliebige Teilkorpora oder einzelne Dokumente auf das Vorkommen bestimmter Typen von Chat-Beiträgen (z.B. Standard-Beiträge, systemgenerierte Beiträge und sog. "action messages") oder bestimmter chat-typischer Stilelemente (Emoticons wie z.B. ;-) oder :-) oder Asterisk-Ausdrücke wie *lach*, *gähn*, *megalol*, *knuddelganzdolle*) hin filtern. STACCADo greift hierzu auf die in die Korpusdokumente eingebrachten XML-Annotationen zu, anhand derer diese (und noch andere) charakteristische Elemente für linguistische Recherchezwecke ausgezeichnet wurden. Daneben erlaubt STACCADo die Zusammenstellung sämtlicher Beiträge eines bestimmten Chatters aus einem Dokument oder Teilkorpus. Sämtliche Filteroptionen lassen sich beliebig mit der stringbasierten Suche kombinieren.

Ausgabe mit und ohne Belegstellen:
Die Ausgabe der Ergebnisse einer Suchanfrage erfolgt wahlweise mit oder ohne Belegstellen. Im ersten Fall werden alle Messages, auf welche die gewählten Suchoptionen zutreffen, mit Angaben zum Belegdokument in einer HTML-Datei zusammengestellt. Bei der Ergebnisausgabe ohne Belegstellen wird eine tabellarische Übersicht der durchsuchten Dokumente erzeugt, die Angaben zu den Häufigkeiten enthält, wie viele Treffer je Dokument ermittelt werden konnten.

Statistische Auswertungen:
Für statistische Auswertungen bietet STACCADo zwei spezielle Funktionen: Per Mausklick lassen sich für beliebige Teilkorpora oder einzelne Korpusdokumente "Logfile-Profile" und "Chatter-Profile" erzeugen. Erstere werten Metadaten zu Mitschnitten aus (wodurch verschiedene Mitschnitte oder Teilkorpora z.B. hinsichtlich der durchschnittlichen Länge von Chat-Beiträgen oder der Frequenz der Verwendung von Sonderelementen wie Emoticons und Asterisk-Ausdrücken vergleichbar werden). Zweitere liefern Auswertungen zu den Anteilen einzelner Chatter am Beitragsaufkommen, zum Verhältnis individueller durchschnittlicher Beitragslängen zum "Durchschnittschatter" und geben für jeden im ausgewerteten Korpusteil bezeugten Chatter - wenn möglich - ein angenommenes Geschlecht an.


Die tabellarisch ausgegebenen Logfile- und Chatter-Profile können problemlos in Tabellenkalkulationsprogramme (z.B. Microsoft Excel) übernommen und dort beliebig umsortiert, weiterverarbeitet und als Grundlage für weitergehende automatische Auswertungen oder die Erzeugung von Visualisierungen und Diagrammen genutzt werden.

Screenshot: Die STACCADo-Suchmaske