Korpora geschriebener Sprache

Deutsches Textarchiv (DTA)

Autor/Herausgeber: Haaf, Susanne/Schulz, Matthias/Thomas, Christian/Wiegand, Frank
Veröffentlicht durch: Berlin-Brandenburgische Akademie der Wissenschaften (BBAW), Berlin
Publikationsdatum:
Zuletzt bearbeitet: 06.09.2016
Webpräsenz des frei zugänglichen Deutschen Textarchivs (DTA), das von der Deutschen Forschungsgemeinschaft gefördert wird. In diesem Forschungsprojekt soll ein repräsentatives Angebot von Texten in deutscher Sprache aus dem Zeitraum vom 16. [...]

Dortmunder Chat-Korpus

Autor/Herausgeber: Storrer, Angelika/Beißwenger, Michael
Veröffentlicht durch: Institut für deutsche Sprache und Literatur/Technische Universität Dortmund
Publikationsdatum: 13.10.2009
Zuletzt bearbeitet: 30.08.2016
Frei verfügbare Sammlung von Mitschnitten ('Logfiles') aus unterschiedlichen Typen von Chat-Anwendungen. Insgesamt umfasst das Korpus 478 Chat-Mitschnitte im Umfang von rund 140.000 Chat-Beiträge mit 1,06 Millionen Wortformen.

DWDS: Referenz-, Zeitungs- und Spezialkorpora

Autor/Herausgeber: Geyken, Alexander
Veröffentlicht durch: Berlin-Brandenburgische Akademie der Wissenschaften (BBAW), Berlin
Publikationsdatum:
Zuletzt bearbeitet: 14.03.2019
Gefördert von der Deutschen Forschungsgemeinschaft hat das Projekt DWDS von 2000 bis 2003 eine große Textbasis erstellt. Hierbei entstand das DWDS-Kernkorpus, das erste zeitlich und nach Textsorten ausgewogene Textkorpus der deutschen Sprache des 20. Jahrhunderts. Seitdem wurden eine Reihe weiterer Korpora in die DWDS-Abfrageplattform eingebunden.

Emergence of Advertising in America: 1850 - 1920 (EAA)

Autor/Herausgeber:
Veröffentlicht durch: Duke University Libraries/Duke University, Durham, NC
Publikationsdatum:
Zuletzt bearbeitet: 11.08.2015
Digitales Archiv mit über 9.000 amerikanischen Werbeanzeigen aus den Jahren 1850 bis 1920 sowie einer Bibliographie zur Geschichte der amerikanischen Werbung.

European Corpus Initiative Multilingual Corpus I (ECI/MCI)

Autor/Herausgeber: Krauwer, Steven
Veröffentlicht durch: European Networks of Excellence in Human Language Technologies (ELSNET)
Publikationsdatum: 11.05.2012
Zuletzt bearbeitet: 18.06.2014
Das ECI-Korpus (CD-ROM) ist ein multilinguales Textkorpus, das rund 98 Millionen Wörter umfasst. Es sind europäische (Deutsch, Englisch, Schwedisch, Italienisch etc.) und nicht-europäische Sprachen (Albanisch, Japanisch, Russisch)