PhD Témy 2024: Spolupráca človeka a umelej inteligencie na tvorbe dátových vzoriek

Školiteľ: Jakub Šimko (UPGM Ústav počítačové grafiky a multimédií)

Modely vytvárané strojovým učením môžu byť len tak dobré, aké dobré sú dáta, ktoré použijeme na ich trénovanie. Aj preto sa výskumníci a inžinieri snažia získavať čo najlepšie trénovacie dáta. Nie je pritom zriedkavé vynakladať značné ľudské úsilie (pri čistení či anotovaní) s cieľom dosiahnuť potrebnú všeobecnú kvalitu. Niekedy je však ťažké, prípadne nemožné dostatočne pripraviť vzorku dát.

V takýchto prípadoch môžu pomôcť riešenia založené na princípe “človek v procese” (angl. human in the loop), ktorý využíva ľudské úsilie na vylepšovanie strojovo naučených modelov prostredníctvom ľudských zásahov priamo počas trénovania a/alebo počas nasadenia modelov (napr. spätná väzba pri automatickom preklade). Tieto riešenia sú špeciálne užitočné pri cielených zlepšeniach trénovacích dát prostredníctvom identifikácie a riešenia sporných prípadov.

Prístupy s človekom procese zahŕňajú pestrú paletu techník z oblastí ako aktívne a interaktívne učenie, ľudské počítanie či čerpanie z davu (spolu s motivačnými schémami ako gamifikácia a hry s účelom). S nástupom veľkých jazykových modelov sa tiež otvárajú možnosti využiť tieto techniky pri generovaní veľkých syntetických trénovacích sád s relatívne malým ľudským úsilím.

Aplikačné domény sú predovšetkým tie s veľkou mierou heterogenity a nestálosti. Takéto domény zahŕňajú napríklad aj detekciu falošných informácií, šírenie informácií online (vrátane šírenia naratívov a mémov), auditovanie algoritmov sociálnych médií a ich tendencií šíriť dezinformácie, podpora manuálneho/automatického overovania informácií (fact-checking) a ďalšie.

Súvisiace publikácie:

  • Cegin, J., Simko, J. and Brusilovsky, P., 2023. ChatGPT to Replace Crowdsourcing of Paraphrases for Intent Classification: Higher Diversity and Comparable Model Robustness. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing https://arxiv.org/pdf/2305.12947.pdf 
  • J. Šimko and M. Bieliková. Semantic Acquisition Games: Harnessing Manpower for Creating Semantics. 1st Edition. Springer Int. Publ. Switzerland. 150 p. https://link.springer.com/book/10.1007/978-3-319-06115-3 

Výskum bude doktorand vykonávať v rámci Kempelenovho inštitútu inteligentných technológií (KInIT, https://kinit.sk) v Bratislave v spolupráci s priemyselnými partnermi alebo výskumníkmi zo svetovo uznávaných výskumných skupín. Predpokladá sa kombinovaná (externá) forma štúdia a pracovný pomer na plný úväzok v KInIT.

Tím školiteľov

Jakub Šimko Lead researcher, KInIT Viac info
Close Jakub Šimko Lead researcher, KInIT

Jakub Šimko is an expert researcher at KInIT, where he also leads the Web and User Data Processing team. Jakub focuses on the intersection of human computation, machine learning and user modeling. He has recently been working on social media algorithm auditing, misinformation modeling and promotes interdisciplinary approaches to computer science research. He graduated from Slovak University of Technology in Bratislava, where, after receiving his PhD, he worked for 7 years as a researcher and teacher. He co-authored more than 30 internationally recognized publications, together receiving more than 350 citations.

Peter Brusilovsky Professor, University of Pittsburgh, USA Viac info
Close Peter Brusilovsky Professor, University of Pittsburgh, USA

Peter Brusilovsky is a Professor at the School of Computing and Information, University of Pittsburgh, where he directs the Personalized Adaptive Web Systems (PAWS) lab. His research is focused on user-centered intelligent systems in the areas of adaptive learning, recommender systems, and personalized health. He is a recipient of Alexander von Humboldt Fellowship, NSF CAREER Award, and Fulbright-Nokia Distinguished Chair. Peter served as the Editor-in-Chief of IEEE  Trans. on Learning Technologies, and a program chair for several conferences including RecSys.

Jana Kosecka Professor, George Mason University, USA Viac info
Close Jana Kosecka Professor, George Mason University, USA

Jana Kosecka is a Professor at the George Mason University. She is interested in computational models of vision systems, acquisition of static and dynamic models of environments by means of visual sensing, high-level semantic scene understanding and human-computer interaction. She held visiting positions at UC Berkeley, Stanford University, Google and Nokia Research, and served as Program chair, Area chair or senior member of editorial board for  leading conferences in the field CVPR, ICCV, ICRA.

Jana is currently mentor of our PhD student: Ivana Beňová

Peter Dolog Associate Professor, Aalborg University, Denmark Viac info
Close Peter Dolog Associate Professor, Aalborg University, Denmark

Peter Dolog is an Associate Professor at the Department of Computer Science, Aalborg University, Denmark. His current research interests include machine learning and data mining in the areas of user behavior analysis and prediction, recommender systems, preference learning, and personalization. Peter is a senior member of ACM, served as a senior program commitee member of AI related conferences as well as a general chair of UMAP, HT and Web Engineering conferences.