The Unreasonable Effectiveness of Pattern Generation

Varování

Publikace nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Autoři

SOJKA Petr SOJKA Ondřej

Rok publikování 2019
Druh Článek v odborném periodiku
Časopis / Zdroj TUGboat: The Communications of the TeX Users Group
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www
Klíčová slova hyphenation; pattern generation; word list database; multilingual typesetting; patgen
Popis Jazyky se neustále vyvíjejí, stejně jako jejich pravidla a potřeby dělení slov. Účinnost a užitečnost dělení slov TeX byla prokázána jeho použitím v téměř všech dnes používaných sazecích systémech. Aktuální vzory dělení slov v České republice byly vytvořeny v roce 1995 a nebyla zveřejněna použitá primární databáze rozdělených slov. Vyvinuli jsme a zveřejnili novou českou databázi slov a pomocí programu patgen jsme efektivně generovali nové efektivní české vzory dělení slov a hodnotili jejich generalizační kvality. Dosáhli jsme plného pokrytí tréninkovým datovým souborem 3?000?000 slov a vytvořili jsme ověřovací postup nových vzorů pro češtinu na základě testovací databáze 105?000 slov schválené lingvisty České akademie věd. Naše případová studie generování vzorů je příkladem praktického řešení rozšířeného problému se slovníkem. Studie prokázala univerzálnost, účinnost a rozšiřitelnost Liangova přístupu k dělení slov vyvinutého pro TeX. Nepřiměřená účinnost technologie vzorů vedla k aplikacím, které jsou a budou používány, a to i v širším měřítku, téměř 40 let po svém vzniku.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.