Die für die Analysen ausgewählten Zeitungsartikel enthalten alle den Ausdruck documenta. Berücksichtigt wurden die acht Zeitungen mit den häufigsten Nennungen sowie fünf als relevant eingestufte Zeitungen (relevant, da entweder ein lokaler Bezug zu Kassel/Hessen vorliegt oder weil eine erste Voruntersuchung eine intensive Beschäftigung mit dem Thema documenta dieser Zeitung nahelegt). Die Grafik setzt im März 2004 ein, da die Verschiebungen des Zeitraums März 2004 – September 2014 besonders interessant sind. Der Grund sind deutlich ausgeprägte Schwankungen der Korpuszusammensetzung in diesem Zeitraum – das zeigt, wie wichtig eine detaillierte Untersuchung einzelner Akteure wie bestimmter Zeitungen oder Autoren im documenta–Diskurs ist. Gezählt wurden die Dokumente im Korpus für die jeweilige Zeitung (relativ/absolut). Warum ist das relevant? – Prinzipiell ist es möglich, dass Analysen durch bestimmte Autoren/Verlage dominiert werden. Stellt man z. B. fest, dass im September 2013 bestimmte sprachliche Phänomene gehäuft auftreten, kann der steigende Einfluss einer bestimmten Zeitung die Ursache sein. Ebenso muss der Umfang berücksichtigt werden, wenn Texte der ‚Frankfurter Rundschau‘ (1259) mit denen aus dem ‚SPIEGEL‘ (80) verglichen werden.
Betrachtet man nicht nur den reinen Artikelumfang, sondern auch die Wortanzahl (Token) sowie die unterschiedlichen Wörter (Types), zeigt sich ein deutlicher Unterschied bei den selektierten Zeitungen. Im Projekt werden nicht nur die absoluten Zahlenwerte (d.h. das, was gemessen/gezählt wurde) betrachtet, sondern auch die relativen Zahlenwerte (Verhältnis zu anderen Kenngrößen). Hierzu zwei einfache Beispiele:
- TTR – Type-Toke-Ratio: Teilt man die Token (Anzahl aller Wörter) durch die Types (Anzahl aller unterschiedlichen Wörter), so erhält man eine sehr grobe Vorstellung davon, wie komplex der Wortschatz der jeweiligen Zeitung (ggf. auch des jeweiligen Autors) ist. In der aktuellen Auswahl hat der ‚Stern‘ die höchste TTR mit 2,25 und die ‚Nürnberger Nachrichten‘ die kleinste TTR mit 1,74. Das kann ein erster Hinweis darauf sein, welche Texte einfacher zu lesen sind (kleinere Werte – bessere Lesbarkeit). Diese Werte sind jedoch mit Vorsicht zu genießen. Wir werden daher in den kommenden Wochen Analysen unterschiedlicher Lesbarkeits-Indices und Vokabular-Matrizen gegenüberstellen und vergleichen.
- Ähnlich verhält es sich mit einfachen Wortfrequenzen, d.h. wie häufig ist häufig? Wird z.B. ein Wort 200 mal im Beispielkorpus A gefunden und 50 mal in Beispielkorpus B, erscheint zunächst das Wort in A häufiger vorzukommen. Hierbei muss aber beachtet werden, dass die Korpora nicht gleich groß sind. Daher ist nur eine Auswertung auf Basis der relativen Frequenz zulässig. Dazu wird die absolute Frequenz (200 bzw. 50) durch die Korpusgröße geteilt. Nehmen wir vereinfacht folgende Korpusgrößen an – für Beispielkorpus A: 200.000 Worte/Token und für Beispielkorpus B: 5000 Worte/Token. Die errechnete relative Frequenz lautet daher für A: 200 / 200.000 = 0,001 sowie für B: 50 / 5000 = 0,01. Damit stellt sich heraus, dass das Wort in Beispielkorpus B zehn Mal häufiger vorkommt als in Beispielkorpus A.
Linke-y-Achse: Token/Types – Rechte-y-Achse: Artikel
Ausgewählte Zeitungen und ihr Token/Type/Artikel-Verhältnis im Gesamt-Pressekorpus
(Text, Analyse und grafische Aufbereitung: Prof. Dr. Andreas Gardt & Jan Oliver Rüdiger)