Korpora

Das Projekt basiert auf Korpusmaterial unterschiedlicher Quellen/Textsorten. Neben Tweets werden auch Zeitungsartikel und Fachpublikationen gesammelt. Weiteres Korpusmaterial befindet sich aktuell in der Erschließung (geplant sind u. a. Webseiten und Blogs mit Bezug zur documenta). Dieses Material soll nach Projektende für Forschungs- und Lehrzwecke frei zur Verfügung gestellt werden. Bitte nutzen Sie unser Kontaktformular, falls Sie Interesse an einer Nutzung haben.

    • Zeitungs-/Fachartikel/Presse-Korpus
      14’769 Dokumente* / 9’084’269 Token / 2’233 Autoren / 151 Zeitungen
      Zeitraum (Stand 10.05.2018): 01.01.1995 bis 31.12.2017
    • Tweet-Korpus
      152’470 Tweets* / 2’222’255 Token / 26’107 Accounts
      Zeitraum (Stand 16.01.2018): 03.01.2010 bis 16.01.2018
      Aufzeichnungsbeginn: 01.01.2016 bis heute
      Tweets vor Aufzeichnungsbeginn durch Referenzierung ermittelt.
    • d14-Webkorpus
      Das Korpus befindet sich aktuell im Aufbau.
      Es basiert auf der Webseite www.documenta14.de

* Gezählt werden nur einmalige Dokumente/Tweets. Im Presse-Korpus entstehen Dubletten z. B. durch die Verbreitung von Agenturmeldungen. Re-Tweets, Zitate oder Antworten werden für die Twitter-Diskursanalyse ausgewertet aber nicht zur Textmenge gezählt.