jan 11. 2024

PhD Témy 2024: Zlepšovanie výkonnosti veľkých jazykových modelov na zadaných úlohách

Školiteľ: Mária Bieliková (UPGM Ústav počítačové grafiky a multimédií)

Veľké jazykové modely sa čoraz častejšie používajú pre široké spektrum úloh, pri ktorých vykazujú dobrú výkonnosť pri použití v podmienkach bez priameho príkladu (zero-shot) alebo s niekoľkými príkladmi (few-shot), a to aj v porovnaní so špecializovanými dotrénovanými modelmi. Platí to predovšetkým pre úlohy, pri ktorých môžu veľké jazykové modely využiť znalosti, ktoré získali počas ich predtrénovania. Avšak pri úlohách, ktoré vyžadujú špecifickejšie doménové znalosti či adaptáciu, veľké jazykové modely aktuálne zaostávajú. Okrem toho trpia rôznymi problémami, ako sú napr. halucinácie (generovanie koherentného výstupu, ktorý je však fakticky nesprávny alebo nezmyselný) alebo generovanie textu obsahujúceho predsudky naučené z dát použitých počas predtrénovania. Boli navrhnuté rôzne prístupy na riešenie týchto problémov, napr. lepšie stratégie tvorby dopytov (vrátane kontextuálneho učenia), generovanie obohatené o vyhľadávanie alebo adaptácia veľkých jazykových modelov pomocou efektívneho dotrénovania.

Každý z týchto prístupov (alebo ich kombinácia) predstavuje príležitosť pre nové objavy. Ortogonálne k týmto prístupom stoja vlastnosti modelov ako miera ich zhody s ľudskými hodnotami, robustnosť, vysvetliteľnosť alebo interpretovateľnosť, ktoré sú dôležitým faktorom a prínos v tomto smere je vítaný (v rámci uvádzaných techník aj všeobecne v umelej inteligencii).

Existuje veľa úloh, kde sa metódy adaptácie veľkých jazykových modelov dajú uplatniť. Nachádzajú sa medzi nimi aj veľmi aktuálne oblasti detekcie nepravdivých informácií (dezinformácií), detekcie signálov kredibility obsahu, auditovanie algoritmov sociálnych médií a ich tendencií šíriť dezinformácie, či podpora overovania informácií (fact-checking).

Súvisiace publikácie:

Macko, D., Moro, R., Uchendu, A., Lucas, J.S., Yamashita, M., Pikuliak, M., Srba, I., Le, T., Lee, D., Simko, J. and Bielikova, M., 2023. MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection Benchmark. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing https://arxiv.org/abs/2310.13606

Vykopal, I., Pikuliak, M., Srba, I., Moro, R., Macko, D., and Bielikova, M., 2023. Disinformation Capabilities of Large Language Models. Preprint dostupný na arXiv: https://arxiv.org/abs/2311.08838

Výskum bude doktorand vykonávať v rámci Kempelenovho inštitútu inteligentných technológií (KInIT, https://kinit.sk) v Bratislave v spolupráci s priemyselnými partnermi alebo výskumníkmi zo svetovo uznávaných výskumných skupín v rámci medzinárodných výskumných grantov. Predpokladá sa kombinovaná (externá) forma štúdia a pracovný pomer na plný úväzok v KInIT.

Apply now

Learn more about PhD at KInIT