Čo je
PhD Témy 2024: Adresovanie obmedzení veľkých jazykových modelov
Školiteľ: Michal Gregor (Ústav počítačové grafiky a multimédií)
Veľké jazykové modely (LLM) predstavujú silný nástroj, ktorý dokáže podporovať širokú škálu downstream úloh. Dajú sa použiť napr. v pokročilých konverzačných rozhraniach alebo v rôznych úlohách zahŕňajúcich vyhľadávanie, klasifikáciu, generovanie a ďalšie. K takýmto úlohám možno pristupovať prostredníctvom in-context učenia v zero-shot alebo few-shot režime alebo prostredníctvom dolaďovania (angl. fine-tuning) LLM na väčších dátových množinách (kvôli zníženiu požiadaviek na pamäť a diskový priestor zvyčajne pomocou techník PEFT (z angl. parameter-efficient fine-tuning).
Napriek ich bezprecedentným výsledkom na mnohých úlohách trpia LLM niekoľkými významnými obmedzeniami, ktoré v súčasnosti v mnohých doménach bránia ich bezpečnému a širokému použitiu. Tieto obmedzenia zahŕňajú napr. tendenciu generovať odpovede, ktoré nemajú oporu v tréningovom korpuse alebo vstupnom kontexte (halucinácie), ťažkosti pri manipulácii s extrémne dlhými kontextami (napr. celé knihy) či obmedzenou schopnosťou využívať iné dátové modality, ako je obraz, kde majú state-of-the-art modely napr. problém rozpoznávať jemné vizuálne koncepty.
Cieľom výskumu je preskúmať takéto obmedzenia a – po zameraní sa na jedno alebo dve z nich – navrhnúť nové stratégie na ich zmiernenie. Také stratégie môžu zahŕňať napr.:
- Posun režimu generovania bližšie k prístupom využívajúcim vyhľadávanie (angl. retrieval-based) a k neparametrickým jazykovým modelom;
- Rozšírenie modelov o samoopravné mechanizmy či samohodnotiace pipeline-y;
- Efektívna podpora pre dlhé kontexty;
- Úplnejšie využitie multimodality, najmä v kontexte kombinácie obrazových a jazykových dát; vysetliteľnostná analýza modelov a návrh nových mechanizmov tréningu podporujúcich schopnosť rozpoznávať aj jemné vizuálne koncepty;
- Nové techniky dolaďovania (angl. fine-tuning);
- Zlepšenie a širšie využitie schopností LLM robiť logické odvodzovanie.
Aplikačnou doménou môže byť napr. Podpora overovania faktov a boja proti dezinformáciám, kde je faktualita výstupov LLM absolútne kritická.
Súvisiace publikácie:
- Srba, I., Pecher, B., Tomlein, M., Moro, R., Stefancova, E., Simko, J. and Bielikova, M., 2022, July. Monant medical misinformation dataset: Mapping articles to fact-checked claims. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 2949-2959). https://dl.acm.org/doi/10.1145/3477495.3531726
- Pikuliak, M., Srba, I., Moro, R., Hromadka, T., Smolen, T., Melisek, M., Vykopal, I., Simko, J., Podrouzek, J. and Bielikova, M., 2023. Multilingual Previously Fact-Checked Claim Retrieval. https://arxiv.org/abs/2305.07991
Výskum bude doktorand vykonávať v rámci Kempelenovho inštitútu inteligentných technológií (KInIT, https://kinit.sk) v Bratislave v spolupráci s priemyselnými partnermi alebo výskumníkmi zo svetovo uznávaných výskumných skupín v rámci medzinárodných výskumných grantov. Predpokladá sa kombinovaná (externá) forma štúdia a pracovný pomer na plný úväzok v KInIT.
Tím školiteľov
Jana Kosecka is a Professor at the George Mason University. She is interested in computational models of vision systems, acquisition of static and dynamic models of environments by means of visual sensing, high-level semantic scene understanding and human-computer interaction. She held visiting positions at UC Berkeley, Stanford University, Google and Nokia Research, and served as Program chair, Area chair or senior member of editorial board for leading conferences in the field CVPR, ICCV, ICRA.
Jana is currently mentor of our PhD student: Ivana Beňová
Michal Gregor is an expert researcher at KInIT. He focuses especially on artificial neural networks and deep learning, on reinforcement learning, and more recently on multi-modal learning and learning that involves language supervision. Michal also has experience in other areas of AI such as metaheuristic optimization methods, representation of uncertain knowledge, probabilistic models and more.