LEMPAS: A Make-Do Lemmatizer for the Swedish PAROLE-Corpus

Varování

Publikace nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Název česky LEMPAS: Lematizátor pro švédský korpus PAROLE
Autoři

CINKOVÁ Silvie POMIKÁLEK Jan

Rok publikování 2006
Druh Článek v odborném periodiku
Časopis / Zdroj Prague Bulletin of Mathematical Linguistics
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Obor Informatika
Klíčová slova LEMPAS; PAROLE; Swedish; lemmatizer; rule-based
Popis LEMPAS, lemmatizátor pro švédský korpus PAROLE, vznikl jako vedlejší produkt práce s aplikací Sketch Engine (Kilgarrif a spol.) na švédštině, neboť řada užitečných funkcí této aplikace, jako například tvorba word sketches, je dostupná pouze pro lemmatizované korpusy. Něměli jsme přístup k žádným lexikálním zdrojům pro švédštinu a čas pro provedení lemmatizace byl velmi omezen. Lemmatizátor tedy neměl velké ambice. Nejprve jsme se pouze snažili spojit související slovní tvary do společných pre-lemmat s použitím obecných pravidel, aniž bychom tvořili seznamy konkrétních slov. Když prvotní pravidla dávala překvapivě dobré výsledky při lemmatizaci podstatných jmen, sloves a přídavných jmen, jsme se rozhodli převést pre-lemmata na skutečná lemmata. Finální program jsme testovali na manuálně lemmatizovaném korpus SUC (Stockholm-Umea Corpus) a provedli analýzu výsledků.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.