Web as Corpus vs. Information Retrieval
Geschrieben von DrNI
am Samstag, 14. März 2009
um 11:10
in Computational Linguistics
Ein paar weitere Live-Marginalien meiner Master-Arbeit… Web as Corpus heute mal mit Schwerpunkt Information Retrieval, aber doch sehr ähnlich zum ehrwürdigen WaC Tk:INFO [main] (IndexerController.java:75) - Worked on 83210 documents.
INFO [main] (IndexerController.java:76) - Skipped 9084 documents.Rechenintensive Aufgaben machen eben doch Spaß, da spürt man mal wieder die schiere Kraft der Maschine. Erstaunlich ist, dass Lucene sich langsamer anfühlt als die Word Sketch Engine.
NLP mit drei Gigabyte Text oder gar mehr fordert den beteiligten Verarbeitungskomponenten eine große Robustheit ab: Man kann weder einzelne Resultate manuell überprüfen (es sind zu viele) noch darf etwas abstürzen. Im Zweifel muss man Verarbeitungsfehler automatisch abfangen und protokollieren und dann das Dokument zunächst wegwerfen. Bei all dem ist es gut, dass ich auf einen reichen Erfahrungsschatz beim automatischen Aufbereiten größerer Korpora zurückgreifen kann. Die mussten schließlich so gut werden, dass man sie hinterher verkaufen konnte (siehe Sketchengine).
Grau wird alle Theorie, wenn es um die echte Wurst geht.




