Segmentace textu na věty

Autoři	PALÁTOVÁ Helena GRÁC Marek
Rok publikování	2012
Druh	Článek ve sborníku
Fakulta / Pracoviště MU	Filozofická fakulta
Citace
www	http://www.ujc.cas.cz/miranda2/export/sitesavcr/data.avcr.cz/humansci/ujc/zakladni-informace/oddeleni/oddeleni-gramatiky/konferencni-sbornik/PalatovaHelena_GracMarek.pdf
Obor	Jazykověda
Popis	Pro češtinu v současné době existuje spousta nástrojů schopných na dobré úrovni popsat její morfologickou rovinu, ale co se týče její volnější, a proto hůře formálně popsatelné syntaxe, musí se (i přes všechny dosavadní pokusy o vytvoření kvalitního automatického syntaktického analyzátoru) nejen korpusoví lingvisté prozatím obejít bez nástrojů, které by byly schopny automaticky do textových korpusů vložit syntaktické značky, podle nichž by se lépe v textech vyhledávalo a zkoumalo jazyk na této rovině. Aby byly nástroje schopny účinně rozpoznávat a popisovat vztahy mezi jednotlivými textovými slovy, potřebují nejprve jasně a především správně rozpoznat hranice jednotlivých autonomních celků, tedy hranice vět. V naší práci jsme se zabývali delimitací věty (sentence). Tato problematika byla sice již v minulosti řešena a prakticky každý korpus má vyznačené hranice vět, ale problematiku určování hranic vět v okrajových případech stále nepovažujeme za dořešenou. Až po dořešení tohoto problému je možné zjistit, jak kvalitně fungují existující automatické nástroje, a můžeme řešit jejich vylepšování. Proto jsme zvolili následující postup. Nejprve byla stanovena formální pravidla, která byla poté použita v návodu pro anotátory. Při tvorbě pravidel jsme se zaměřili zvláště na formální zvláštnosti některých syntaktických konstrukcí používaných v českých textech. Právě těmito pravidly se řídili anotátoři při práci s korpusem současných blogových textů. Text ručně segmentovali na jednotlivé věty a vytvořili tím jednotná data. Takto vytvořená data byla základem pro upřesnění pravidel s cílem dosáhnout vyšší interanotační shody. V příspěvku prezentujeme formální a jednoznačná pravidla pro určování hranic vět spolu s jejich zdůvodněním na korpusovém materiálu. Vytvořená data plánujeme zpřístupnit tak, aby mohla sloužit nejen jako testovací data, ale i jako zdroj pro statistické (automatické) strojové učení.