2009 × VAGINA oder die Arbeit mit echten Daten
Geschrieben von DrNI
am Freitag, 13. März 2009
um 16:16
in Computational Linguistics
Wenn man als Computerlinguist mit echten Daten arbeitet, was leider viel zu wenige Kollegen tun, dann bekommt man nette Effekte. Zum Beispiel ist da dieser Eintrag in der Simple English Wikipedia, der 2009 Mal das Wort VAGINA enthält. Getrennt durch Leerzeichen, ohne Punkt und ohne Komma direkt hintereinander. Einen Satz dieser Länge quittierte mein Programm ungalant mit einem StackOverflowError.Mal sehen, wann der Eintrag repariert wird. Mein Programm kommt jetzt jedenfalls auch damit klar.





Ein paar weitere Live-Marginalien meiner Master-Arbeit… Web as Corpus heute mal mit Schwerpunkt Information Retrieval, aber doch sehr ähnlich zum ehrwürdigen WaC Tk: INFO [main] (IndexerController.java:75) - Worked on 83210 documents. INFO [m
Aufgenommen: Mär 14, 11:11