Automatic Web Page Classification

Varování

Publikace nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Název česky Automatické určení domény a klíčových slov stránky
Autoři

MATERNA Jiří

Rok publikování 2008
Druh Článek ve sborníku
Konference Recent Advances in Slavonic Natural Language Processing
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www https://nlp.fi.muni.cz/raslan/2008/papers/6.pdf
Obor Informatika
Klíčová slova automatic classification; machine learning; thesaurus
Popis Cílem této práce je navrhnout a otestovat přístup, který umožní automatickou klasifikaci webových stránek do domén a určení klíčových slov stránky. Klasifikace stránek je založena na použití strojového učení. Hlavním problémem je však malý rozsah webových stránek, který užití metod strojového učení znesnadňuje. V práci jsou navrženy dva přístupy, které se snaží tento nedostatek minimalizovat. Prvním z nich je zohledňování širšího kontextu webové stránky, to znamená, že se analyzují i stránky, umístěné ve stejné internetové doméně, které jsou ze zkoumané stránky odkazovány. Druhou metodou je shlukování termů dokumentu na základě jejich podobného gramatického kontextu. Pro tyto účely je vytvořen poměrně rozsáhlý thesaurus a z něho shlukový slovník.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.