Mit einer Tautologie zu Christus – oder sonst wo hin?

Geschrieben von DrNI am Montag, 23. November 2009 um 19:00 in Computational Linguistics, Direktsaft
Ich habe endlich die Fotos von meinem Handy heruntergeladen. Da ich das Handy immer dabei habe sind auch einige sprachlich interessante Botschaften fotografisch dokumentiert worden. Zunächst ein Plakat, das den Betrachter auf den richtigen Weg bringen möchte:


»Christ? Weil… es zum Umsteigen nie zu spät ist!«

Nehmen wir mal an, der begründende Satz »Weil es zum Umsteigen nie zu spät ist« wäre immer oder wenigstens meistens wahr, was die meisten von uns wohl bekräftigen dürften, dann könnte man aus diesem Satz alles folgern:

»Muslim? Weil es zum Umsteigen nie zu spät ist.«
»Agnostiker? Weil es zum Umsteigen nie zu spät ist.«
»Vegetarier? Weil es zum Umsteigen nie zu spät ist.«

Dieses Muster könnte man beliebig fortsetzen. Außer vielleicht, wenn sofort klar ist, dass ein Umstieg sehr schwer bis unmöglich ist. Nicht alle Daseinsformen hängen vom freien Willen alleine ab, manchmal braucht man auch gewisse formale oder biologische Voraussetzungen:

»Professor? Weil es zum Umsteigen nie zu spät ist.«
»Frau? Weil es zum Umsteigen nie zu spät ist.« (Für Männer)
»Homosexuell? Weil es zum Umsteigen nie zu spät ist.«

Es ist jedenfalls keine gute Idee, eine so offensichtlich logisch anfällige Werbeaussage auf einem Plakat in einem von Linguisten bevölkerten Unigebäude anzubringen. Abgesehen davon darf man sich natürlich fragen, warum christliche Organisationen Werbung machen (dürfen) und die anderer Glaubensgruppen nicht. Siehe auch Atheist Bus Campaign.


Die Hörnchen auf dem Kopf der Dame wurden wohl in ähnlicher Verwunderung von jemand anderem angebracht, sie sind jedenfalls nicht original.

Crossref

Geschrieben von DrNI am Samstag, 26. September 2009 um 18:39 in Computational Linguistics
DrNI@AM schreibt über Parteiprogramme und den Hohenheimer Verständlichkeitsindex.

Crossref

Geschrieben von DrNI am Donnerstag, 20. August 2009 um 11:23 in Computational Linguistics, English Posts
DrNI@Automatic Mind writes: Text Difficulty and Information Retrieval

Marathon auf Rhodos

Geschrieben von DrNI am Samstag, 28. März 2009 um 11:41 in Computational Linguistics
DEBUG [main] (LuceneIndexManager.java:90) - Closing IndexWriter.
INFO [main] (IndexerController.java:87) - Worked on 247233 documents.
INFO [main] (IndexerController.java:88) - Skipped 18029 documents.


(Rhodos ist unsere neue Schüssel für die Aufarbeitung von Korpora. Potent… könnte aber auch noch ein paar CPUs mehr drin haben. Mein vorheriges Spielzeug im Nebenjob hatte derer 4 sowie 32GB RAM und mehrere TB Plattenkapazität, da konnte man richtig nett arbeiten.)

Web as Corpus vs. Information Retrieval

Geschrieben von DrNI am Samstag, 14. März 2009 um 11:10 in Computational Linguistics
Ein paar weitere Live-Marginalien meiner Master-Arbeit… Web as Corpus heute mal mit Schwerpunkt Information Retrieval, aber doch sehr ähnlich zum ehrwürdigen WaC Tk:

INFO [main] (IndexerController.java:75) - Worked on 83210 documents.
INFO [main] (IndexerController.java:76) - Skipped 9084 documents.


Rechenintensive Aufgaben machen eben doch Spaß, da spürt man mal wieder die schiere Kraft der Maschine. Erstaunlich ist, dass Lucene sich langsamer anfühlt als die Word Sketch Engine.

NLP mit drei Gigabyte Text oder gar mehr fordert den beteiligten Verarbeitungskomponenten eine große Robustheit ab: Man kann weder einzelne Resultate manuell überprüfen (es sind zu viele) noch darf etwas abstürzen. Im Zweifel muss man Verarbeitungsfehler automatisch abfangen und protokollieren und dann das Dokument zunächst wegwerfen. Bei all dem ist es gut, dass ich auf einen reichen Erfahrungsschatz beim automatischen Aufbereiten größerer Korpora zurückgreifen kann. Die mussten schließlich so gut werden, dass man sie hinterher verkaufen konnte (siehe Sketchengine).

Grau wird alle Theorie, wenn es um die echte Wurst geht.

2009 × VAGINA oder die Arbeit mit echten Daten

Geschrieben von DrNI am Freitag, 13. März 2009 um 16:16 in Computational Linguistics
Wenn man als Computerlinguist mit echten Daten arbeitet, was leider viel zu wenige Kollegen tun, dann bekommt man nette Effekte. Zum Beispiel ist da dieser Eintrag in der Simple English Wikipedia, der 2009 Mal das Wort VAGINA enthält. Getrennt durch Leerzeichen, ohne Punkt und ohne Komma direkt hintereinander. Einen Satz dieser Länge quittierte mein Programm ungalant mit einem StackOverflowError.

Mal sehen, wann der Eintrag repariert wird. Mein Programm kommt jetzt jedenfalls auch damit klar.

A Preview of my Readability Library

Geschrieben von DrNI am Sonntag, 14. Dezember 2008 um 12:56 in Computational Linguistics, English Posts
Is there anything worse than procrastinating the studying for your MA oral exam by writing Java code for your MA thesis? Anyways. Here we go with a little preview on a Java library of readability measures. I'm planning to write a longer article about the sense and senselessness of readability measures for my CL Blog. To cut a long story short: readability measures resp. algorithms take a text, split it into words and syllables, and apply some weird formula to that. In the end, you get a figure saying how easy or difficult to read (or understand) the text is supposed to be. One of the most prominent measures is the Flesch-Kincaid Readability Test which is supposed to say how many years of US education one needs in order to be able to understand the given text.


Let's have a look at the screen shot of my demo. First of all, be aware that some or all of the measures might be wrong. As one can see, for the given text, it takes almost 14 years of school education. The text I took is a pirates story for kids from Neopedia, which some of my fellow students might be well aware of because they are currently suffering from a named entity annotation task for that text. So why is this fairy-tale alike story so hard to read? A comparison with the output of this online tool revealed that the sentence counter I'm using cannot deal with the quotation marks used in direct speech and the text contains lots of it. The Flesch-Kincaid formula punishes documents for long sentences, therefore the score goes up the fewer sentences you have.

The sentence counting part currently is based on Java Fathom, a port from Perl's Lingua::EN::Fathom module. The syllable counter is also the Fathom port from there. Apart from that, Java Fathom has a bug preventing it from working at all. I contacted the maintainer. He keeps reacting with silence. So in order to be able to publish this library, I need to re-invent some wheels myself, because other people messed things up. (This is what usually happens if computer scientists try to do something with language.)

As some of my readers may have noticed, I reactivated the Computational Linguistics category here. I consider it to be the CL blather dump from now on. After all, this post isn't enough of a post for my CL Blog.

Stay tuned on both blogs, if everything works out as I hope it to work out, I'll pass the exam next week and I'll publish the open-sourced readability library somewhen in January.

Alles neu macht der September

Geschrieben von DrNI am Freitag, 12. September 2008 um 20:57 in Computational Linguistics, Direktsaft
Neu weil weg: Der Klapprechner rechts im Bild ist tot, mause. Auch das ist neu, seit langer Zeit bin ich mal wieder laptoplos. Ein Nachfolger ist noch nicht gewählt und es ist noch nicht sehr akut, da ich ja seit neuestem in der Uni ein Büro mit einem iMac habe. Aber es gibt noch mehr Neues. Am Rande: Ein neuer Bass als Ersatzteil für Notfälle auf der Bühne.

Neu und noch nicht gänzlich fertig ist vor allem auch ein komplettes frisches Design auf meiner persönlichen Homepage. Und dazu ist alles, was nicht mit dem »beruflichen« zu tun hat, von dort verschwunden. Die Seite ist seitdem konsequent in Englisch gehalten. Und sie beinhaltet das neueste Neue: Mein neues Blog. Die Kategorie Computational Linguistics hierzublog ist also ein Relikt, weiter geht es mit der Computerlinguistik in meinem englischsprachigen CL Blog. Gewonnen hat den Kampf um das Content Management übrigens Serendipity.

Nun mag man die Trennung zwischen (zukünftigem) Beruf und Privatleben als überholt ansehen oder auch nicht. Darüber mag ich hier nicht befinden. Der Trennung liegt für mich die Erkenntnis zugrunde, dass Wissenschaft und Perversität sowie allerhand alltäglich irrelevantes polemisches Geplapper nicht unbedingt die gleiche Klientel ansprechen.

Die an Computerlinguistik interessierten Leser möchte ich hiermit auffordern, mein Zweitblog zu abonnieren. Für alle anderen bleibt alles beim Alten.

Worthäufigkeiten von Körperteilen in Songtexten: Hiphop Asses, Blues Hands

Geschrieben von DrNI am Mittwoch, 27. August 2008 um 16:39 in Computational Linguistics, Musik
Das hier schon beschriebene Wordle visualisiert Worthäufigkeiten mit Hilfe der typografischen Eigenschaft der Schriftgröße. Auf ein eher künstlerisches Podest hievt Fleshmap die Worthäufigkeit: das Projekt zeigt Fotos von Körperteilen in verschiedenen Größen. Die Größe repräsentiert die Häufigkeit des Namen des Körperteils in einem Songtext – oder vielmehr in einer Sammlung von Songtexten eines Genres.

Augen scheinen überall ein wichtiges Konzept zu sein. Beim Hiphop hingegen springen dem Betrachter Ärsche, Schwänze und Muschis ins Auge. Der Blues hat viel mit den Händen zu tun. Und mit Brüsten. Was nicht das gleiche ist wie Titten. Zwischen verschiedenen Synonymen oder nah verwandten Begriffen wird nämlich peinlich genau unterschieden. Mehrdeutige Wörter wie »back« wurden vorsichtshalber nicht gewertet.

Man kann auch einzelne Texte selbst in eine Körperteil-Darstellung umwandeln lassen. Dabei zeigt sich ganz indirekt die Sinnlosigkeit von Stichwort-Filtern zur Überwachung von irgendwas: Während so mancher Song ziemlich viele kleine Tittenbildchen fabriziert, drücken sich die meisten etwas feineren Musiker um die expliziten Worte, um genau das gleiche auszudrücken. So bleiben die Bilder zum Beispiel bei He Made A Woman Out Of Me abwesend. Trotz der mit 16 Jahren verlorenen Jungfreulichkeit der weiblichen Protagonisten.

Die Kunst findet immer wieder interessante Schnittpunkte mit der Computerlinguistik. Es bleibt spannend. Also Arsch hoch, ihr Computerkünstlerlinguisten!

Worthäufigkeit visualisiert: Wordle

Geschrieben von DrNI am Donnerstag, 19. Juni 2008 um 13:00 in Computational Linguistics
Unlängst berichtete ich vom Vorhaben, wie schon einmal eine Buzzword-Wand aus Karrieregeblubber zu fabrizieren, das ich dann aber doch nicht in die Tat umsetzte. Wordle nimmt einem die Arbeit ab und macht optisch auch einiges mehr her. Die automatische Wortwolke sieht dann so aus:


Es handelt sich hierbei um eine automatische »Analyse« eines Blog-Posts über eine Suchmaschine für Computerlinguistische Publikationen. Den Titel des Posts habe ich mit zum Input hinzugefügt.

Wordle benutzt als Grundlage für diese Darstellung die Worthäufigkeit, wobei allgemeine Wörter weggelassen werden. Ob letzteres auf Grundlage einer Stoppwortliste oder einfach auf Grundlage von ein bisschen statisischer Magie basiert, das blieb mir bis jetzt verborgen. Die Farbgebung ist eine mehr oder minder zufällige Auswahl aus einer Palette, sie transportiert also keine Aussage.

Obwohl das Werkzeug sicherlich gestalterische Prinzipien in den Vordergrund stellt, ist es meiner Meinung nach auch zur Darstellung von Informationen doch nicht ganz unnütz. Es schafft es bei meinem Blog-Post immerhin, dass die Wörter deutlich hervorgehoben sind, um die sich das Thema dreht. Sozusagen eine »typo-grafische« Inhaltsangabe auf einen Blick.

Der Haken ist, dass das als Java-Applet umgesetzte Programm keinen Export seines Resultats erlaubt. Die Druckfunktion weigert sich, in Datei zu drucken. Mit diesem kleinen Trick bekommt man nämlich zumindest unter Linux/Un*x immer eine Grafikdatei, die man wo anders einbetten könnte. Somit bleibt nur: Alternative suchen oder einen virtuellen Trickserdrucker installieren.

Und da ist noch was: Blog-Posts sind kurz, oft scheint hier eine »ein Thema – ein Post«-Situation vorzuliegen. Bei längeren Texten wird die einfache Worthäufigkeit vermutlich weniger konkret sichtbare Ergebnisse liefern, außer man schafft es, mehrere solche Wortwölkchen aus schlau gewählten, thematisch abgegrenzten Textabschnitten zu bauen.


via.