Web as Corpus vs. Information Retrieval

Geschrieben von DrNI am Samstag, 14. März 2009 um 11:10 in Computational Linguistics
Ein paar weitere Live-Marginalien meiner Master-Arbeit… Web as Corpus heute mal mit Schwerpunkt Information Retrieval, aber doch sehr ähnlich zum ehrwürdigen WaC Tk:

INFO [main] (IndexerController.java:75) - Worked on 83210 documents.
INFO [main] (IndexerController.java:76) - Skipped 9084 documents.


Rechenintensive Aufgaben machen eben doch Spaß, da spürt man mal wieder die schiere Kraft der Maschine. Erstaunlich ist, dass Lucene sich langsamer anfühlt als die Word Sketch Engine.

NLP mit drei Gigabyte Text oder gar mehr fordert den beteiligten Verarbeitungskomponenten eine große Robustheit ab: Man kann weder einzelne Resultate manuell überprüfen (es sind zu viele) noch darf etwas abstürzen. Im Zweifel muss man Verarbeitungsfehler automatisch abfangen und protokollieren und dann das Dokument zunächst wegwerfen. Bei all dem ist es gut, dass ich auf einen reichen Erfahrungsschatz beim automatischen Aufbereiten größerer Korpora zurückgreifen kann. Die mussten schließlich so gut werden, dass man sie hinterher verkaufen konnte (siehe Sketchengine).

Grau wird alle Theorie, wenn es um die echte Wurst geht.

Kommentare
Ansicht der Kommentare: (Linear | Verschachtelt)

Noch keine Kommentare

Kommentar schreiben

Umschließende Sterne heben ein Wort hervor (*wort*), per _wort_ kann ein Wort unterstrichen werden.
Standard-Text Smilies wie :-) und ;-) werden zu Bildern konvertiert.
Die angegebene E-Mail-Adresse wird nicht dargestellt, sondern nur für eventuelle Benachrichtigungen verwendet.

Um maschinelle und automatische Übertragung von Spamkommentaren zu verhindern, bitte die Zeichenfolge im dargestellten Bild in der Eingabemaske eintragen. Nur wenn die Zeichenfolge richtig eingegeben wurde, kann der Kommentar angenommen werden. Bitte beachten Sie, dass Ihr Browser Cookies unterstützen muss um dieses Verfahren anzuwenden.
CAPTCHA