Čo je
PhD Témy 2024: Zlepšovanie spracovania prirodzeného jazyka
Školiteľ: Marián Šimko (Ústav počítačové grafiky a multimédií)
Rozvoj veľkých jazykových modelov (large language models, LLM) v posledných mesiacoch ukazuje potenciál hlbokého učenia a umelých neurónových sietí pre mnoho úloh spracovania prirodzeného jazyka (natural language processing, NLP). Pokroky v ich automatizácii majú významný dopad na množstvo inovatívnych aplikácií ovplyvňujúcich každodenný život.
Aj keď sú veľké jazykové modely úspešne využívané pri riešení veľkého množstva úloh, stále zostávajú viaceré výskumné výzvy týkajúce sa jednotlivých úloh spracovania prirodzeného jazyka, aplikačných domén a samotných jazykov. K nim pribúdajú ďalšie výzvy vychádzajúce z podstaty veľkých jazykových modelov a netransparentnej povahy modelov založených na neurónových sieťach (tzv. black-box modely).
Je potrebný ďalší výskum a prieskum súvisiacich javov, špeciálnu pozornosť v poslednej dobe púta problém dôveryhodnosti modelov pre NLP (tzv. trustworthy NLP) alebo nové paradigmy učenia adresujúce problém nízkej dostupnosti zdrojov potrebných pre učenie (tzv. low-resource NLP).
Zaujímavé výskumné výzvy, na ktoré sa možno v rámci témy zamerať (príkady):
- Veľké jazykové modely a ich vlastnosti (napr. porozumenie halucinovania)
- Dôveryhodnosť NLP (napr. mitigácia biasov, vysvetliteľnosť modelov)
- Adaptovanie veľkých jazykových modelov na konkrétny kontext a úlohu (napr. prostredníctvom PEFT, RAG)
- Pokročilé techniky učenia (napr. učenie s prenosom, multilingválne učenie)
- Doménovo-špecifická extrakcia informácií a klasifikácia textu (napr. nové metódy analýzy sentimentu, zlepšovanie kvality konverzácie v konverzačných agentoch)
Súvisiace publikácie:
- Pikuliak, M., et al. SlovakBERT: Slovak Masked Language Model. In Findings of the Association for Computational Linguistics: EMNLP 2022, pages 7156–7168, ACL, 2022
http://dx.doi.org/10.18653/v1/2022.findings-emnlp.530 - Pikuliak, M., Šimko, M. Average Is Not Enough: Caveats of Multilingual Evaluation. In Proceedings of the The 2nd Workshop on Multi-lingual Representation Learning (MRL), pages 125–133, ACL, 2022
http://dx.doi.org/10.18653/v1/2022.mrl-1.13
Výskum bude doktorand(ka) vykonávať v rámci Kempelenovho inštitútu inteligentných technológií (KInIT, https://kinit.sk) v Bratislave v spolupráci — podľa vybranej podtémy — s priemyselnými partnermi alebo výskumníkmi zo svetovo uznávaných výskumných skupín. Predpokladá sa kombinovaná (externá) forma štúdia a pracovný pomer na plný úväzok v KInIT.
Tím školiteľov
Marián Šimko is an expert researcher at KInIT. Marián focuses on natural language processing, information extraction, low-resource language processing and trustworthiness of neural models. He is a former vice-dean for Master’s study and alumni co-operation at the Slovak University of Technology.
Jana Kosecka is a Professor at the George Mason University. She is interested in computational models of vision systems, acquisition of static and dynamic models of environments by means of visual sensing, high-level semantic scene understanding and human-computer interaction. She held visiting positions at UC Berkeley, Stanford University, Google and Nokia Research, and served as Program chair, Area chair or senior member of editorial board for leading conferences in the field CVPR, ICCV, ICRA.
Jana is currently mentor of our PhD student: Ivana Beňová
Martin Hurban is Data Science Team Lead at ČSOB. He is coordinating AI project implementation within the bank and is leading a team responsible for ČSOB’s digital companion Kate, capability to understand natural language. During his Ph. D. in the area of Solidification of multicomponent alloys, teaching was done in unconstrained optimization, nonlinear programing and numerical methods.