jan 12. 2024

PhD Témy 2024: Zlepšovanie spracovania prirodzeného jazyka

Školiteľ: Marián Šimko (Ústav počítačové grafiky a multimédií)

Rozvoj veľkých jazykových modelov (large language models, LLM) v posledných mesiacoch ukazuje potenciál hlbokého učenia a umelých neurónových sietí pre mnoho úloh spracovania prirodzeného jazyka (natural language processing, NLP). Pokroky v ich automatizácii majú významný dopad na množstvo inovatívnych aplikácií ovplyvňujúcich každodenný život.

Aj keď sú veľké jazykové modely úspešne využívané pri riešení veľkého množstva úloh, stále zostávajú viaceré výskumné výzvy týkajúce sa jednotlivých úloh spracovania prirodzeného jazyka, aplikačných domén a samotných jazykov. K nim pribúdajú ďalšie výzvy vychádzajúce z podstaty veľkých jazykových modelov a netransparentnej povahy modelov založených na neurónových sieťach (tzv. black-box modely).

Je potrebný ďalší výskum a prieskum súvisiacich javov, špeciálnu pozornosť v poslednej dobe púta problém dôveryhodnosti modelov pre NLP (tzv. trustworthy NLP) alebo nové paradigmy učenia adresujúce problém nízkej dostupnosti zdrojov potrebných pre učenie (tzv. low-resource NLP).

Zaujímavé výskumné výzvy, na ktoré sa možno v rámci témy zamerať (príkady):

Veľké jazykové modely a ich vlastnosti (napr. porozumenie halucinovania)

Dôveryhodnosť NLP (napr. mitigácia biasov, vysvetliteľnosť modelov)

Adaptovanie veľkých jazykových modelov na konkrétny kontext a úlohu (napr. prostredníctvom PEFT, RAG)

Pokročilé techniky učenia (napr. učenie s prenosom, multilingválne učenie)

Doménovo-špecifická extrakcia informácií a klasifikácia textu (napr. nové metódy analýzy sentimentu, zlepšovanie kvality konverzácie v konverzačných agentoch)

Súvisiace publikácie:

Pikuliak, M., et al. SlovakBERT: Slovak Masked Language Model. In Findings of the Association for Computational Linguistics: EMNLP 2022, pages 7156–7168, ACL, 2022
http://dx.doi.org/10.18653/v1/2022.findings-emnlp.530

Pikuliak, M., Šimko, M. Average Is Not Enough: Caveats of Multilingual Evaluation. In Proceedings of the The 2nd Workshop on Multi-lingual Representation Learning (MRL), pages 125–133, ACL, 2022
http://dx.doi.org/10.18653/v1/2022.mrl-1.13

Výskum bude doktorand(ka) vykonávať v rámci Kempelenovho inštitútu inteligentných technológií (KInIT, https://kinit.sk) v Bratislave v spolupráci — podľa vybranej podtémy — s priemyselnými partnermi alebo výskumníkmi zo svetovo uznávaných výskumných skupín. Predpokladá sa kombinovaná (externá) forma štúdia a pracovný pomer na plný úväzok v KInIT.

Apply now

Learn more about PhD at KInIT