Das Dortmunder Chat-­Korpus: ein annotiertes Korpus zur Sprachverwendung und sprachlichen Variation in der deutschsprachigen Chat-­Kommunikation

Michael Beißwenger (2013)

Artikel als PDF tl_files/icons/pdficon.jpg

Inhalt

1. Inhalt und Zusammensetzung des Korpus    
2. Versionen und Teilkompilationen des Korpus    
3. Aufbereitung und Annotation der Daten (XML-­Version)    
4. Abfrage des Korpus mit dem Suchwerkzeug STACCADo    
5. Literatur   

Einleitung

"Die Sprachverwendung in der internetbasierten Kommunikation – in Foren, Chats und Weblogs, via Skype und in Instant-Messaging-Systemen, in sozialen Netzwerken wie Facebook, Twitter und Wikipedia, in Lernplattformen, Online-Computerspielen und „virtuellen Welten“ – ist in den Korpora zum Gegenwartsdeutschen bislang kaum berücksichtigt. Auch gibt es nur wenige Spezialkorpora, die die Sprachverwendung im Netz bezogen auf einzelne Genres oder Kommunikationsbereiche systematisch dokumentieren. Die Verfügbarkeit frei zugänglicher und für linguistische Analysezwecke aufbereiteter Sammlungen von Sprachdaten aus dem Netz stellt aber für verschiedene Forschungszusammenhänge – die empirische Erforschung des Sprachgebrauchs in der internetbasierten Kommunikation, die datengestützte Beschreibung aktueller Tendenzen im Gegenwartsdeutschen und nicht zuletzt auch den Bereich der Sprachvermittlung – eine wichtiges Desiderat dar.

Ein Spezialkorpus zur internetbasierten Kommunikation, das seit 2005 frei im Netz zur Verfügung steht, ist das Dortmunder Chat-Korpus (http://www.chatkorpus.tu-dortmund.de). Das Korpus wurde in den Jahren 2002–2008 von Michael Beißwenger, Angelika Storrer und Bianca Selzam an Angelika Storrers Dortmunder Lehrstuhl für Linguistik der deutschen Sprache und Sprachdidaktik aufgebaut. Es dokumentiert die Sprachverwendung und sprachliche Variation in der deutschsprachigen Chat-Kommunikation und umfasst 478 Chat-Mitschnitte aus unterschiedlichen sozialen Handlungsbereichen (Freizeit, Bildung, Beratung, Medien) im Umfang von insgesamt 140.240 Nutzerbeiträgen bzw. 1,06 Millionen Token. Die Daten sind für linguistische und sprachdidaktische Nutzungszwecke aufbereitet und können entweder direkt online eingesehen oder mit einem Java-basierten Suchwerkzeug durchsucht werden, das zusammen mit dem Korpus kostenfrei von der Website heruntergeladen werden kann.

Das Korpus eignet sich sowohl für datengestützte linguistische Analysen als auch als Ressource für die Gewinnung von authentischen Beispielen zur Sprachverwendung in Chats für Unterrichtszwecke. Im Jahr 2009 wurde es als Ressource für den Unterricht im Wahlpflichtmodul 2 „Die deutsche Sprache unter dem Einfluss der Neuen Medien“ in das Kerncurriculum Deutsch für die gymnasiale Oberstufe des Landes Niedersachsen aufgenommen (vgl. KC Deutsch GyGe NI: 51). Beispiele für linguistische Untersuchungen auf Basis des Korpus sind Storrer (2007, 2013), Beißwenger (2013) sowie die Dissertation Luckhardt (2009).

Dieser Beitrag gibt einen Überblick über die Zusammensetzung und Annotation der Korpusdaten und über die Möglichkeiten ihrer Abfrage und Nutzung."

Zurück