Využití corpus driven metod při corpus based výzkumu

Autoři	OSOLSOBĚ Klára
Rok publikování	2015
Druh	Článek ve sborníku
Konference	Proměna jazyka a jeho výzkumu v době nových médií a technologií
Fakulta / Pracoviště MU	Filozofická fakulta
Citace
www	http://www.phil.muni.cz/wucj/home/News/2015/sbornik-promena-jazyka-a-jeho-vyzkumu-v-dobe-novych-medii-a-technologii
Obor	Jazykověda
Klíčová slova	corpus; corpus based; corpus driven; overgeneration; undegeneration; lemma; tag; word formation
Popis	Jedním z podstatných rysů aplikací automatické analýzy přirozeného jazyka je tzv. přegerovávání. Formální definici odpovídají jednotky, které tvoří homogenní skupinu (tu, kterou se prostřednictvím formálního zadání snažíme definovat), ale i jednotky, které jsou vůči této skupině heterogenní. Tento jev spadá na vrub obecné vlastnosti přirozeného jazyka, jíž je nejednoznačnost (homonymie) na všech úrovních. Rubem téže mince je tzv. podgenerovávání, tedy případ, kdy formální zadání je vymezeno příliš úzce, takže nejsou zachyceny jednotky, které se jeho prostřednictvím snažíme definovat. Na konkrétním příkladu ukážeme postup optimalizace vyhledávání dat pro korpusově založený (corpus based) výzkum slovotvorby, který vychází z korpusově řízené (corpus driven) metody zpřesňování formálního zadání na základě pozorování přegenerovaných dat.
Související projekty:	Čeština v jednotě synchronie a diachronie - 2015