Slovenská komunita pre spracovanie prirodzeného jazyka

Našim cieľom je rozvoj spolupráce v oblasti vzdelávania, výskumu, vývoja a inovácií zameraných na spracovanie prirodzeného jazyka a jazykové technológie pre slovenský jazyk. 

Našou ambíciou je zlepšovanie stavu automatizovaného spracovania slovenského jazyka a príbuzných oblastí s postupným zapojením všetkých zložiek slovenského inovačného ekosystému. Slovenská NLP komunita spája a prepája ľudí, ktorí sa venujú spracovaniu jazyka vo výskume, vo firmách aj vo vzdelávaní, podporuje výmenu skúseností a vytvára priestor na nové spolupráce.

Fungovanie a pracovné skupiny

Aktuálny model fungovania je založený na koordinačných stretnutiach, ktoré sa konajú spravidla dvakrát ročne, a kontinuálnej práci v pracovných skupinách so zameraním na riešenie čiastkových otvorených problémov v oblasti NLP či príbuzných oblastiach. Koordinátorom komunity je Kempelenov inštitút inteligentných technológií. 

Pracovné skupiny zahŕňajú:

  • Koordinačný výbor
  • Benchmarkovanie modelov pre slovenčinu
  • Infraštruktúra a zdroje pre NLP

Partneri a tímy

V súčasnosti sú aktívne zapojené akademické tímy. Dlhodobou ambíciou je rozširovať zapojenie smerom k priemyslu, verejným inštitúciám a ďalším partnerom.

  • Kempelenov Inštitút inteligentných technológií
    • Výskumný tím pre spracovanie prirodzeného jazyka (NLP), 
    • Výskumný tím pre spracovanie webových a používateľských dát (WUDAP)
  • TU v Košiciach
    • Laboratórium rečových komunikačných technológií, KEMT FEI 
    • Laboratórium inteligentnej multimodálnej analýzy dát, KKUI FEI
  • Slovenská akadémia vied
    • Jazykovedný ústav Ľ. Štúra
    • Ústav informatiky, Oddelenie analýzy a syntézy reči
    • Výpočtové stredisko
  • UK v Bratislave – Výskumná skupina NaiveNeuron FMFI
  • UKF v Nitre – NLP lab pri Katedre informatiky
  • UPJŠ v Košiciach – Ústav informatiky, PF

Stretnutia

#3 TUKE, Košice, 20.11.2025

#4 TBA

Vybrané výsledky a výstupy

Benchmarky, modely a pod.

  • skLEP – benchmark typu GLUE (repo, paper)
  • SkMTEB – text embedding benchmark (repo, paper)
  • mistral-sk-7b – repo
  • Qwen3-14B-sk – repo
  • Zoznam NLP zdrojov pre spracovanie slovenčiny – repo

Ostatné

  • Vyhlásenie o dôležitosti výskumu jazykových technológií pre konkurencieschopnosť Slovenska (september 2024)
  • Memorandum o spolupráci pri rozvoji spracovania prirodzeného jazyka a jazykových modelov pre slovenčinu (september 2025)
  • Založenie združenia CLARIN-SK (február 2026)

Slovenská NLP komunita na webe:

Súvisiace

  • NLP (Summer) Schools – pravidelná letná škola NLP pre tých, ktorí sa chcú niečo naučiť o jazykových technológiách 
  • Better_AI meetups – pravidelné stretnutia nadšencov o tému AI, vybrané časti boli zamerané na NLP: Vol_15, Vol_13, Vol_08, Vol_07, Vol_1