Využití corpus driven metod při corpus based výzkumu

Autoři

OSOLSOBĚ Klára

Rok publikování 2015
Druh Článek ve sborníku
Konference Proměna jazyka a jeho výzkumu v době nových médií a technologií
Fakulta / Pracoviště MU

Filozofická fakulta

Citace
www http://www.phil.muni.cz/wucj/home/News/2015/sbornik-promena-jazyka-a-jeho-vyzkumu-v-dobe-novych-medii-a-technologii
Obor Jazykověda
Klíčová slova corpus; corpus based; corpus driven; overgeneration; undegeneration; lemma; tag; word formation
Popis Jedním z podstatných rysů aplikací automatické analýzy přirozeného jazyka je tzv. přegerovávání. Formální definici odpovídají jednotky, které tvoří homogenní skupinu (tu, kterou se prostřednictvím formálního zadání snažíme definovat), ale i jednotky, které jsou vůči této skupině heterogenní. Tento jev spadá na vrub obecné vlastnosti přirozeného jazyka, jíž je nejednoznačnost (homonymie) na všech úrovních. Rubem téže mince je tzv. podgenerovávání, tedy případ, kdy formální zadání je vymezeno příliš úzce, takže nejsou zachyceny jednotky, které se jeho prostřednictvím snažíme definovat. Na konkrétním příkladu ukážeme postup optimalizace vyhledávání dat pro korpusově založený (corpus based) výzkum slovotvorby, který vychází z korpusově řízené (corpus driven) metody zpřesňování formálního zadání na základě pozorování přegenerovaných dat.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.