Korpusy jako zdroje dat pro úpravy nástrojů automatické morfologické analýzy (Slovotvorné varianty adjektiv na [(ou)|í]cí z hlediska morfologického značkování)

Autoři

OSOLSOBĚ Klára

Rok publikování 2014
Druh Další prezentace na konferencích
Fakulta / Pracoviště MU

Filozofická fakulta

Citace
Popis Cílem našeho příspěvku je naznačit, jak 20 let užívání nástrojů automatické morfologické analýzy k morfologickému značkování českých korpusů přispívá k poznání fungování pravidelných paradigmatických derivací v jazyce. Soustředíme se na jeden z případů pravidelných derivací (adjektiva na -oucí/-ící), které jsou na úrovni slovníků automatických analyzátorů zachyceny analogicky jako pravidelně tvořené gramatické tvary . Ukážeme, že značkování adjektiv pravidelně tvořených a na rovině slovníku automatického morfologického analyzátoru automaticky generovaných (s oporou ve slovesném tvaru 3. os. pl./ přechodníku přítomného) není na rovině morfologického slovníku užitého pro morfologické značkování (taging) českých korpusů řady SYN uspokojivě vyřešeno. Na základě pozorování korpusových dat ukážeme, že hlavním důvodem nekonzistencí je existence tvarových variant/dublet opěrných tvarů. Tvarové varianty/dublety jsou příčinou vzniku slovotvorných dublet. Jak tvarové, tak slovotvorné varianty/dublety nejsou uspokojivě zaznamenány pravidly pro generování tvarů příslušných sloves a od nich derivovaných adjektiv. Předpokladem konzistentního značkování je detailní průzkum všech možných variant. Ten je možno v současnosti opřít o velké korpusy. Implementace pravidel pro tvoření slovotvorných variant opřená o objektivní jazyková data může pomoci při optimalizaci nástrojů užívaných k automatické morfologické analýze češtiny.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.