Slovak NLP Community Meeting #3

Program

12:30 Príchod, spoločný obed
13:20 Otvorenie
13:30 Pozvaná prednáška: Daniel Hládek: Trénovanie a vyhodnotenie vektorových modelov slovenského jazyka pomocou množiny otázok a odpovedí
14:15 Okrúhly stôl (info o tímoch + diskusia)
I. Novinky v tímoch (aktualizácia 2025) – spolu cca 40-50 min
II. Diskusia
16:15 Posterová sekcia
17:30 Záver a spoločný program
Prehliadka superpočítača Perun, večera o 19:00, …

Počas programu budú aj kávové prestávky, ktoré dohodneme na mieste.

Trénovanie a vyhodnotenie vektorových modelov slovenského jazyka pomocou množiny otázok a odpovedí

V prednáške predstavím Retrieval SkQuAD, nový benchmark určený na podporu výskumu informačného vyhľadávania v slovenskom jazyku. Zatiaľ čo pre angličtinu a ďalšie veľké jazyky existujú rozsiahle hodnotiace súbory, slovenčina doteraz podobný zdroj nemala. Retrieval SkQuAD túto medzeru napĺňa prostredníctvom 19 000 ručne anotovaných odpovedí na 1 134 otázok, pričom každá odpoveď je doplnená o hodnotenie relevantnosti a informácie o užitočnosti dokumentov pri tvorbe odpovedí. Benchmark je integrovaný do rámcov BEIR a MTEB, čo zaručuje kompatibilitu s etablovanými štandardmi pre viacjazyčné hodnotenie. V prednáške priblížim, ako sme vyladili viaceré sentence-transformer a BERT modely na tomto datasete, pričom sme využili adverzariálne otázky ako ťažké negatívne príklady, aby sme zvýšili robustnosť modelov. Na záver sa dotknem možných smerov ďalšieho výskumu v trénovaní a vyhodnotení slovenských modelov pre získavanie informácií.

Zhrnutie

Tretie stretnutie SK NLP komunity sa uskutočnilo na pôde TUKE v Univerzitnej knižnici. Program začal pozvanou prednáškou Daniela Hládka z KEMT FEI TUKE a pokračoval predstavením noviniek v deviatich zúčastnených vedeckých tímoch. Pri otvorenej diskusii v rámci okrúhleho padli informácie o účasti Slovenska v konzorciu CLARIN, a bola predstavená myšlienka spoločného jazykového AI hubu. Diskutovali sa priority napredovania tvorby jazykových zdrojov a spájania síl v týchto iniciatívach. Novou súčasťou podujatia bola posterová sekcia, kde mohli výskumníci prezentovať výsledky svojich projektov, pričom dôraz bol kladený na doktorandov a doktorandky. Zavŕšením programu bola prehliadka superpočítača Perun.


Partneri podujatia