Pojmový slovník pre spracovanie slovenčiny
Pojmový slovník pre automatizované spracovanie slovenského textu
KInIT v spolupráci s portálom Eduself.sk vytvoril pojmový slovník, ktorý umožňuje efektívnejšie riešiť úlohy z oblasti spracovania slovenských textov.
Slovenčina dlhodobo bojuje s nedostatkom dostupných a kvalitných lingvistických nástrojov, ktoré by uľahčovali spracovanie textov v našom jazyku. To brzdí nielen schopnosť efektívne spracovávať slovenské texty, ale aj tvorbu ďalších nástrojov na analýzu textov, ktoré potrebujú pre svoju funkčnosť kvalitné slovníkové dáta. Či už ide o bežné úlohy ako extrakcia informácií z textu (napr. extrakcia osôb a lokalít spomenutých v texte alebo určenie nevhodných či toxických slov v komentároch), budovanie vlastných slovníkov pre tieto úlohy je časovo náročné a zároveň často nevyhnutné. Problémom však nie je len malý rozsah dostupných slovníkov pre slovenčinu, ale aj ich technologická uzavretosť. Chýbajúce komunikačné rozhrania pre použitie aplikáciami (API) bránia softvérom využívať slovenské dáta naplno, čím spracovanie nášho jazyka v súboji s globálnou konkurenciou stráca dych. Zahraničné slovníky zase nezohľadňujú špecifické črty slovenčiny, čím sa stáva ich adaptácia pre slovenčinu komplikovaná.
Rozhodli sme sa preto vytvoriť vlastný pojmový slovník pre slovenčinu, ktorý je prístupný nielen cez webové rozhranie (https://pojmy.kinit.sk), ale má k dispozícii aj strojovo čitateľné rozhranie (tzv. API) pre účely jeho využitia v softvérových aplikáciách. Informácie o pojmoch a vzťahoch medzi týmito pojmami nám poskytujú bohaté možnosti pre efektívnejšie porozumenie spracovávaného textu. Náš slovník je vhodný pre rôzne typy NLP úloh (úlohy z oblasti spracovania prirodzeného jazyka, skratka z angl. Natural Language Processing). Prínos je však nielen pri sémantickej (významovej) analýze, či už ide o úlohy súvisiace s extrakciou informácií alebo kategorizáciu textov podľa kritérií, ale čiastočne pomáha aj pri lexikálnej a kontextovej analýze textu: určenie gramatických kategórii slov je dôležité napr. pri rozlíšení viacvýznamových pojmov (slov, ktoré môžu mať viacero významov), v prípade kontextu dokáže nástroj identifikovať, keď sa v texte vyskytujú rôzne slová odkazujúce na rovnaký pojem (napr. alternatívne pomenovania alebo zdrobneniny: Miroslav, Miro, Mirko).
V súčasnosti nástroj obsahuje približne 145 000 pojmov a 355 000 vzťahov medzi týmito pojmami, čím je najrozsiahlejší svojho druhu pre náš jazyk. A zároveň jediný, ktorý je zároveň možné použiť aj cez strojovo čitateľné rozhranie.
Vďaka tomu je možné využiť ho pri riešení rôznych (aj čiastkových) úloh z oblasti spracovania slovenského textu, napríklad:
- Extrakcia lokalít: miest, obcí, krajín, riek, a rôznych ďalšie geografických objektov.
- Identifikácia pojmov súvisiacich s lokalitami: vzťah medzi lokalitami typu mesto a krajina (Trnava – Slovensko, Brno – Česko), vzťah medzi lokalitou a osobou (Košice – Košičan, Košičanka) alebo pojmy v tvare prídavného mena (Slovensko – slovenský, Váh – vážsky).
- Extrakcia osôb: slovník obsahuje krstné mená vrátane vzťahov medzi alternatívnymi označeniami mena (napr. Miroslav – Mirko – Miro).
- Sémantická podobnosť pojmov: synonymá, zdrobneniny, zveličené slová a iné alternatívne pomenovania súvisiace s tým istým pojmom (napr. pes – psík – psíček – psisko).
- Sémantická podobnosť pojmov naprieč slovnými druhmi: (napr. pre podstatné meno varenie: variť (sloveso), variaci (činné príčastie), varený (trpné príčastie), varný (vzťahové prídavné meno).
- Identifikácia hierarchie medzi pojmami: vzťah všeobecný pojem – špecifický pojem (napr. zviera – pes, povolanie – lekár … ) alebo hierarchia nadtyp-podtyp (napr. meter – milimeter, plukovník – podplukovník, lekár – zverolekár).
- Rozlíšenie významu viacvýznamových slov: keď má jedno slovo viacero možných významov (napr. práčka ako prístroj alebo práčka ako žena, ktorá perie; zámok ako budova alebo zámok ako zariadenie na zamykanie).
- Identifikácia pojmov s opačným významom (napr. sever – juh) alebo negáciou predponami (pekný – nepekný, sociálny – antisociálny, relevantný – irelevantný).
- Normalizácia číselných dát: napr. číslo 10 a jeho textové varianty: desať, desiatka, X (rímske označenie čísla 10)
- Normalizácia emotikonov: prepojenie na textové pojmy (napr. 🍐 – hruška).
- Rozlišovanie rolí: mužsko-ženské (študent – študentka), individuálne-skupinové (študent – študentstvo, divák – diváctvo, obecenstvo), rola naviazaná k lokalite (Trnavčan – Trnava), rola naviazaná k myšlienkovému smeru (kresťan – kresťanstvo) a pod.
Podrobnejší zoznam kategórií a vzťahov, informácie o slovníku a dokumentácia k API sú dostupné na webe projektu https://pojmy.kinit.sk .
Odkazy:Blšták, M. (2025). Slovak Conceptual Dictionary. In arXiv:2512.00579 [cs.CL] https://arxiv.org/abs/2512.00579