Worthäufigkeit visualisiert: Wordle

Geschrieben von DrNI am Donnerstag, 19. Juni 2008 um 13:00 in Computational Linguistics
Unlängst berichtete ich vom Vorhaben, wie schon einmal eine Buzzword-Wand aus Karrieregeblubber zu fabrizieren, das ich dann aber doch nicht in die Tat umsetzte. Wordle nimmt einem die Arbeit ab und macht optisch auch einiges mehr her. Die automatische Wortwolke sieht dann so aus:


Es handelt sich hierbei um eine automatische »Analyse« eines Blog-Posts über eine Suchmaschine für Computerlinguistische Publikationen. Den Titel des Posts habe ich mit zum Input hinzugefügt.

Wordle benutzt als Grundlage für diese Darstellung die Worthäufigkeit, wobei allgemeine Wörter weggelassen werden. Ob letzteres auf Grundlage einer Stoppwortliste oder einfach auf Grundlage von ein bisschen statisischer Magie basiert, das blieb mir bis jetzt verborgen. Die Farbgebung ist eine mehr oder minder zufällige Auswahl aus einer Palette, sie transportiert also keine Aussage.

Obwohl das Werkzeug sicherlich gestalterische Prinzipien in den Vordergrund stellt, ist es meiner Meinung nach auch zur Darstellung von Informationen doch nicht ganz unnütz. Es schafft es bei meinem Blog-Post immerhin, dass die Wörter deutlich hervorgehoben sind, um die sich das Thema dreht. Sozusagen eine »typo-grafische« Inhaltsangabe auf einen Blick.

Der Haken ist, dass das als Java-Applet umgesetzte Programm keinen Export seines Resultats erlaubt. Die Druckfunktion weigert sich, in Datei zu drucken. Mit diesem kleinen Trick bekommt man nämlich zumindest unter Linux/Un*x immer eine Grafikdatei, die man wo anders einbetten könnte. Somit bleibt nur: Alternative suchen oder einen virtuellen Trickserdrucker installieren.

Und da ist noch was: Blog-Posts sind kurz, oft scheint hier eine »ein Thema – ein Post«-Situation vorzuliegen. Bei längeren Texten wird die einfache Worthäufigkeit vermutlich weniger konkret sichtbare Ergebnisse liefern, außer man schafft es, mehrere solche Wortwölkchen aus schlau gewählten, thematisch abgegrenzten Textabschnitten zu bauen.


via.

Trackbacks

Worthäufigkeiten von Körperteilen in Songtexten: Hiphop Asses, Blues Hands
Das hier schon beschriebene Wordle visualisiert Worthäufigkeiten mit Hilfe der typografischen Eigenschaft der Schriftgröße. Auf ein eher künstlerisches Podest hievt Fleshmap die Worthäufigkeit: das Projekt zeigt Fotos von Körperteilen in verschiedenen Grö
Weblog: Gsallbahdr
Aufgenommen: Aug 27, 16:40

Kommentare
Ansicht der Kommentare: (Linear | Verschachtelt)

ich hab mich auch gefragt, was wordle zugrunde liegt: tf–idf? dafür sind die texte m.E. zu kurz...
#1 Julius am 19.06.2008 13:44 (Antwort)
TF-IDF verlangt vor allem nach Anzahl der Dokumente, in denen das Wort vorkommt. Die Methode setzt also voraus, dass eine Textsammlung (bzw. Korpus) vorliegt, das in Teile gegliedert ist (z.B. in Dokumente). Das ist hier nicht der Fall. Man könnte natürlich die Worthäufigkeit in Relation setzen zur Worthäufigkeit aus einem möglichst "allgemein repräsentativen" Korpus. Allerdings müsste man so eine Datenbasis erst mal haben und außerdem wäre sie sprachabhängig. Wordle scheint aber mit allem möglichen Input klarzukommen, sofern einfache Vorschlaghammer-Tokenization ausreicht.
#1.1 DrNI am 19.06.2008 13:52 (Antwort)
web as corpus ;-)
ne klar, ich weiß, wie tf-idf funktioniert. und da hier nun endlich das applet-plugin im browser tut: ja, sieht nach einfacher frequenz aus. wahrscheinlich stoppwortliste (englisch, deutsch und ?...) (filtert z.B. nur einmal vorkommende partikeln etc.) - bleibt aber eh spekulation, man darf ja nicht reinschauen.
#1.1.1 Julius am 19.06.2008 23:52 (Antwort)
Unter Windows druckt das teil aber.
#2 Kil (Homepage) am 19.06.2008 13:56 (Antwort)
Drucken tut es ja auch, aber nicht in Datei, und damit unter Linux nicht in Postscript, was man zu EPS machen (und irgendwo einbinden) könnte .
#2.1 DrNI am 19.06.2008 13:58 (Antwort)
Ach, ich liebe diese WortWolkengeschichte. So sehr, dass ich eine Blogparade gestartet habe.
Das geniale daran ist, die WortWolke wird anhand deiner Last.FM-Charts erstellt.
Wenn du Lust hast mitzumachen (worüber ich mich sehr freuen würde), gugst du hier: http://www.hasen-farm.de/2008/10/03/blogparade-musik-mit-wordle-und-lastfm-visualisieren/

Gruß!

H aus H
#3 HASENFARM (Homepage) am 16.10.2008 12:28 (Antwort)

Kommentar schreiben

Umschließende Sterne heben ein Wort hervor (*wort*), per _wort_ kann ein Wort unterstrichen werden.
Standard-Text Smilies wie :-) und ;-) werden zu Bildern konvertiert.
Die angegebene E-Mail-Adresse wird nicht dargestellt, sondern nur für eventuelle Benachrichtigungen verwendet.

Um maschinelle und automatische Übertragung von Spamkommentaren zu verhindern, bitte die Zeichenfolge im dargestellten Bild in der Eingabemaske eintragen. Nur wenn die Zeichenfolge richtig eingegeben wurde, kann der Kommentar angenommen werden. Bitte beachten Sie, dass Ihr Browser Cookies unterstützen muss um dieses Verfahren anzuwenden.
CAPTCHA