Lingvista Paul Rayson na FF UK: metody „tagování“ a vize zlepšení

Autor: Barbora Janoušková | Datum: 19.6.2012 | Rubrika: Fakulta | přidat komentář |

V pondělí 11. 6. 2012 proběhla na FF UK přednáška Paula Raysona z Lancaster University Adapting a semantic field tagging system for Early Modern English. Mluvilo se o metodách tzv. strojového značkování významu slov v moderní angličtině a jejich nedostatcích při určování významu slov angličtiny starší. Představeny byly současné systémy, metody, na nichž se pracuje, i vize do budoucna.

Význam „tagování“

V případě, že chceme nějakým způsobem využít data publikovaná na webu, je zapotřebí je získat v takové formě, aby se dala strojově zpracovávat a vyhodnocovat. K tomu slouží automatické sémantické (významové) anotační přístupy, které lze dnes použít například při obsahové analýze politického diskursu a velmi populární se stávají pro opinion mining (nástroj, algoritmus k vytažení hlavní myšlenky z textu), text mining (nástroj, který umí poskytnout stěžejní informaci o obsahu dokumentu a setřídit dokumenty podle podobnosti, aniž by je musel někdo číst) či pro analýzy materiálů získaných z internetových sociálních sítí a webů. V dnešní uspěchané době jsou nástroje tohoto typu více než žádoucí, a proto je důležité neustále inovovat a zdokonalovat sémantické anotační přístupy, na nichž celé „tagování“ stojí. Je k tomu zapotřebí výpočetní techniky a obsáhlého korpusu textů, díky nimž se systém může utvářet.

USAS x VARD

V dnešní době je již velmi dobře rozvinutý systém pro významové určování slov moderní angličtiny, USAS (UCREL Semantic Analysis System). Jeho kvality spočívají v umění tagovat jak slova, tak i celý text, určovat význam slova ve většině případů i podle kontextu a identifikovat frázová slovesa, fráze nebo idiomy. V případě aplikace systému USAS na texty rané moderní angličtiny, jíž je napsáno mnoho významných textů včetně děl Williama Shakespeara, však vyvstávají problémy. Obsahuje mnoho tvarů slov, které se již v dnešní spisovné angličtině nepoužívají, slova se liší v pravopise a někdy i ve významu. Přesto je třeba je identifikovat. Nabízí se řešení – systém k detekci historických pravopisných variant. Na základě toho vznikl systém VARD (Variant Detector).

…ještě spousta práce

VARD je sice systém, který již používá dokonalejších přístupů k přesnějšímu přiřazení variant slov rané moderní angličtiny ke slovům angličtiny moderní, ovšem stále ještě není schopen postihnout většinu textů té doby. Vyvstává tedy otázka, jak velký korpus historických textů bude zapotřebí k ucelení systému a zda je vůbec možné na historické texty text mining aplikovat.

Pro více informací se můžete podívat na web School of Computing and Communications, Lancester University: http://ucrel.lancs.ac.uk/.