2009 × VAGINA oder die Arbeit mit echten Daten

Geschrieben von DrNI am Freitag, 13. März 2009 um 16:16 in Computational Linguistics
Wenn man als Computerlinguist mit echten Daten arbeitet, was leider viel zu wenige Kollegen tun, dann bekommt man nette Effekte. Zum Beispiel ist da dieser Eintrag in der Simple English Wikipedia, der 2009 Mal das Wort VAGINA enthält. Getrennt durch Leerzeichen, ohne Punkt und ohne Komma direkt hintereinander. Einen Satz dieser Länge quittierte mein Programm ungalant mit einem StackOverflowError.

Mal sehen, wann der Eintrag repariert wird. Mein Programm kommt jetzt jedenfalls auch damit klar.

Trackbacks

Web as Corpus vs. Information Retrieval.
Ein paar weitere Live-Marginalien meiner Master-Arbeit… Web as Corpus heute mal mit Schwerpunkt Information Retrieval, aber doch sehr ähnlich zum ehrwürdigen WaC Tk: INFO [main] (IndexerController.java:75) - Worked on 83210 documents. INFO [m
Weblog: Gsallbahdr
Aufgenommen: Mär 14, 11:11

Kommentare
Ansicht der Kommentare: (Linear | Verschachtelt)

Bereits repariert. Fuer die Faulen: http://simple.wikipedia.org/w/index.php?title=Popcorn&oldid=1428085

Ich frag mich immer, wer tut sowas? Vielleicht 13-jaehrige Kiddies.
#1 aleks (Homepage) am 14.03.2009 16:51 (Antwort)

Kommentar schreiben

Umschließende Sterne heben ein Wort hervor (*wort*), per _wort_ kann ein Wort unterstrichen werden.
Standard-Text Smilies wie :-) und ;-) werden zu Bildern konvertiert.
Die angegebene E-Mail-Adresse wird nicht dargestellt, sondern nur für eventuelle Benachrichtigungen verwendet.

Um maschinelle und automatische Übertragung von Spamkommentaren zu verhindern, bitte die Zeichenfolge im dargestellten Bild in der Eingabemaske eintragen. Nur wenn die Zeichenfolge richtig eingegeben wurde, kann der Kommentar angenommen werden. Bitte beachten Sie, dass Ihr Browser Cookies unterstützen muss um dieses Verfahren anzuwenden.
CAPTCHA