Náš PhD študent Ján Čegiň úspešne obhájil svoju dizertačnú prácu

Práca má názov Machine Learning With Human in the Loop for Textual Augmentation in the Era of LLMs, viedol ju Jakub Šimko a spoluviedol Peter Brusilovsky.

Ján začal svoje doktorandské štúdium v roku 2021 s ambíciou preskúmať, ako môžu ľudia a stroje spolupracovať pri vytváraní označkovaných dát pre nízko-zdrojové domény. Jeho skorá práca sa sústredila na data augmentation – rozširovanie existujúcich dátových vzoriek prostredníctvom techník od parafrázovania až po generovanie syntetických príkladov. V rámci tohto úsilia vyvinul crowdsourcingovú hru na zbieranie adversariálnych príkladov pre úlohy klasifikácie textu a v polovici roku 2022 publikoval svoju prvú prácu.

A potom prišiel ChatGPT.

Keď rozpoznal transformačný potenciál veľkých jazykových modelov, Ján rýchlo presunul svoj záujem na pochopenie toho, ako táto nová generácia LLMs ovplyvní úlohy ľudskej výpočtovej práce a textovo orientovaný crowdsourcing. Čoskoro sa ukázalo, že LLMs ponúkajú výrazné výhody pre data augmentation, najmä v porovnaní s tradičnými prístupmi riadenými ľuďmi.

Preto Ján vystaval svoju dizertačnú prácu okolo myšlienky integrácie LLMs do textovej augmentácie, pričom skúmal, ako sa LLM-based augmentation porovnáva s prístupmi orientovanými na ľudí z hľadiska nákladov, výkonu a efektívnosti.

Práca je postavená okolo štyroch centrálnych otázok: (1) efektívnosť LLMs verzus ľudských pracovníkov pri úlohách data augmentation, (2) prenositeľnosť techník ľudskej výpočtovej práce do prompting-u pre LLMs, (3) analýza nákladov a prínosov LLM-based augmentation v porovnaní s tradičnými metódami a (4) vplyv stratégií výberu vzoriek na výkon downstream modelov pri použití LLMs.

Prostredníctvom rozsiahlych experimentov Ján ukázal, že LLMs dokážu generovať rozmanitejšie a validnejšie textové dáta než ľudskí pracovníci, pričom výrazne znižujú náklady. Okrem toho začlenenie techník inšpirovaných ľuďmi – ako napríklad poskytovanie nápovedy alebo zákaz používania určitých slov – môže zlepšiť výkon modelov, aj keď dopad na lexikálnu diverzitu zostáva obmedzený. Jeho zistenia tiež odhaľujú, že LLM augmentation je obzvlášť prínosná v nízko-zdrojových nastaveniach, kde je k dispozícii len niekoľko začiatočných vzoriek. Nakoniec vyhodnotil rôzne stratégie výberu vzoriek a zistil, že náhodný výber ostáva silnou základnou metódou, zatiaľ čo stratégie založené na nápovedách prinášajú najlepšie výsledky pre out-of-distribution výkon.

Výsledky tejto práce poukazujú na potenciál LLM-based textovej augmentácie prekonať tradičné metódy za určitých podmienok a otvárajú cestu k efektívnejším a nákladovo dostupnejším postupom data augmentation v ére pokročilých jazykových modelov.

Počas svojho doktorandského pôsobenia Ján bohato publikoval. Zverejnil 4 práce ako hlavný autor na rôznych konferenciách (3 × CORE Rank A*, 1 × CORE Rank A) a 3 ďalšie publikácie, ktoré spoluautoroval (1 × workshop na konferencii CORE Rank A*, 1 × spoločný hlavný autor na konferencii CORE Rank A*, 1 × spoluautor na konferencii CORE Rank A*).