PhD Témy 2024: Meranie kvality výstupov veľkých jazykových modelov

Školiteľ: Jakub Šimko (UPGM Ústav počítačové grafiky a multimédií)

S nástupom veľkých jazykových modelov (LLM) vyvstávajú výskumné otázky ako merať kvalitu a vlastnosti ich výstupov. Tieto merania sú dôležité pre porovnávanie a vylepšovanie modelov či ladenie ich vstupov (prompts). Niektoré techniky vyhodnocovania sa vzťahujú k špecifickým doménam a scenárom použitia (napr. ako presne model odpovedá na faktické otázky v konkrétnej doméne? ako dobre sa dajú generované príklady použiť na trénovanie malého modelu na konkrétnu úlohu?). Iné techniky sú všeobecnejšie (napr. aká je rozmanitosť parafráz generovaných LLM? ako jednoduché je detegovať, že je obsah generovaný?).

Prostredníctvom replikačných štúdií, porovnávacích experimentov, návrhov metrík, konštrukcie vstupov a iných prístupov, doktorand/ka posunie poznanie v metódach a experimentálnych metodológiách vyhodnocovania výstupov veľkých jazykových modelov. Za pozornosť pritom stoja dva všeobecné scenáre:

  1. Generovanie a/alebo augmentácia datasetov, kedy sa LLM podnecujú relatívne malými vzorkami príkladov, aby vytvorili oveľa rozsiahlejšie súbory. Tento prístup je užitočný najmä v doménach a úlohách s malým množstvom dostupných originálnych (označkovaných) trénovacích dát (napr. doména detekcie dezinformácií).
  2. Detekcia generovaného obsahu, kde sa využívajú stylometrické, štatistické, hlboko-učené či hybridné metódy na určovanie, či bol príklad obsahu generovaný alebo modifikovaný strojovo. Schopnosť detekcie generovaného obsahu je kľúčová pre mnoho scenárov z reálneho sveta (napr. detekcia dezinformácií alebo podvodov), ale prispieva aj do výskumných postupov (napr. pri zisťovaní prítomnosti generovaného obsahu v publikovaných datasetoch či vo vzorkách pochádzajúcich z crowdsourcingu).

Doktorand/ka si vyberie jeden z uvedených scenárov (no nebude ním obmedzený/á) a ďalej ho rozpracuje a primerane zúži na špecifické výskumné otázky, ktoré experimentálne overí.

Súvisiace publikácie:

  • Cegin, J., Simko, J. and Brusilovsky, P., 2023. ChatGPT to Replace Crowdsourcing of Paraphrases for Intent Classification: Higher Diversity and Comparable Model Robustness. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing https://arxiv.org/pdf/2305.12947.pdf 
  • Macko, D., Moro, R., Uchendu, A., Lucas, J.S., Yamashita, M., Pikuliak, M., Srba, I., Le, T., Lee, D., Simko, J. and Bielikova, M., 2023. MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection Benchmark. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing https://arxiv.org/pdf/2310.13606.pdf 

Výskum bude doktorand vykonávať v rámci Kempelenovho inštitútu inteligentných technológií (KInIT, https://kinit.sk) v Bratislave v spolupráci s priemyselnými partnermi alebo výskumníkmi zo svetovo uznávaných výskumných skupín. Predpokladá sa kombinovaná (externá) forma štúdia a pracovný pomer na plný úväzok v KInIT.

Tím školiteľov

Jakub Šimko Lead researcher, KInIT Viac info
Close Jakub Šimko Lead researcher, KInIT

Jakub Šimko is an expert researcher at KInIT, where he also leads the Web and User Data Processing team. Jakub focuses on the intersection of human computation, machine learning and user modeling. He has recently been working on social media algorithm auditing, misinformation modeling and promotes interdisciplinary approaches to computer science research. He graduated from Slovak University of Technology in Bratislava, where, after receiving his PhD, he worked for 7 years as a researcher and teacher. He co-authored more than 30 internationally recognized publications, together receiving more than 350 citations.

Dominik Macko Senior researcher, KInIT Viac info
Close Dominik Macko Senior researcher, KInIT

Dominik focuses on energy efficiency and security in the Internet of Things environment, from a communication point of view as well as from a device point of view. He focuses on reduction of unnecessary control overhead to create a secure channel and transmit data by strictly power-managed sensor nodes. Also, he deals with anomaly and intrusion detection in IP networks based on communication statistics. Recently, he focuses on robust detection of multilingual machine-generated text.