Worthäufigkeitsanalyse in gedruckten Büchern

Ein ganz interessantes Tool ist der Google Books Ngram Viewer. Er erlaubt die Suche nach dem Auftreten in Wörtern in gedruckten (und von Google Books gescannten und volltextgeOCRten) Bücher zwischen 1800 und (derzeit) 2008. Hier zum Beispiel ein Vergleich von internet versus mobile phone ab 1968:

Google Books: Ngram Viewer

Natürlich sind Suchen in anderen Zeiträumen und in anderen Sprachen formulierbar. Hier zum Beispiel die Suche nach Angst im deutschen Datenbestand, die durchaus nachvollziehbare Ergebnisse bringt:

Google Books Ngram Viewer: Angst

Die Ergebnisse sind freilich mit absoluter Vorsicht zu genießen. Zum einen muss man sich klar machen, dass viele Begriffe Doppelbedeutungen haben, die das Ergebnis unklar machen, etwa internet,windows,apple oder android,ios. Für seltene Wörter lässt sich das Ganze gar nicht benutzen und ein Vergleich von zwei Begriffen, deren Häufigkeit stark abweicht, macht das ganze wegen der simplen Skalierung unbrauchbar.

Ohnehin deckt Google Books natürlich nur einen Ausschnitt aller Bücher ab, die noch dazu vorselektiert wurden, um speziell linguistische und (pop)kulturelle Phänomenen quantitativ dataminen zu können. Doch genau dafür eignet sich das Tool daher ganz besonders, zum Beispiel: Wann hatte eine bestimmte Kulturtechnik, die ein einzigartiges Schlagwort besaß, ihren ersten Impact? Am Beispiel social media:

Ngram Viewer: der Aufstieg des Begriffs 'social media'

Die Entwickler des Werkzeugs gehen in ihrem Beitrag Quantitative Analysis of Culture Using Millions of Digitized Books von 4% aller gedruckten Bücher als Datenbestand aus, wobei darin naturgemäß englischsprachige Bücher dominieren. Trotz aller Limits zeigt das Tool, wohin der Hase läuft, denn derlei Auswertungen sind natürlich derzeit auch über den Datenbestand aller von Google indizierten Websites und Social-media-Statusposts möglich.