chared: Character Encoding Detection with a Known Language

Varování

Publikace nespadá pod Filozofickou fakultu, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Autoři

POMIKÁLEK Jan SUCHOMEL Vít

Rok publikování 2011
Druh Článek ve sborníku
Konference RASLAN 2011
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www https://nlp.fi.muni.cz/raslan/2011/paper16.pdf
Obor Informatika
Klíčová slova character encoding; character encoding detection; charset; Unicode
Popis chared je systém, který dokáže detekovat kódování znaků textu dokumentu, za předpokladu, že jazyk dokumentu je znám. Systém podporuje širokou škálu jazyků a nejčastěji používaná kódování znaků. Článek vysvětluje detaily algoritmu, popisuje proces vytváření modelů pro různé jazyky a prezentuje výsledky vyhodnocení na kolekci webových stránek.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.