Practical Web Crawling for Text Corpora

Varování

Publikace nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Název česky Praktické automatické stahování z webu pro textové korpusy
Autoři

SUCHOMEL Vít POMIKÁLEK Jan

Rok publikování 2011
Druh Článek ve sborníku
Konference Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2011
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www https://nlp.fi.muni.cz/raslan/2011/paper09.pdf
Obor Informatika
Klíčová slova crawler; web crawling; corpus; web corpus; text corpus
Popis SpiderLing -- automatický stahovač dokumentů z internetu pro lingvistiku -- je nový software pro tvorbu textových korpusů z webu, který uvádíme v tomto článku. Mnoho dokumentů na webu obsahuje pouze materiál, který není vhodný pro textové korpusy, jako seznamy seznamy odkazů, seznamy produktů a dalších druhy textů neskládající se z celých vět. Ve skutečnosti tyto stránky představují drtivou většinu webu. Nepřizpůsobeným stahováním jsme zpravidla získali velké množství dat, která byla odfiltrována při následném zpracování. To činí proces získávání webových textů neefektivním. Cílem naší práce je zaměřit se na stahování částí internetu bohatých na text a maximalizovat počet slov ve výsledném souboru na stažený megabyte. Prezentujeme předběžné výsledky dosažené při vytváření textových webových korpusů v češtině a tádžické perštině.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.