GEPERO: Generovanie personalizovaného obsahu vo výskume kvality informácií

Projekt GEPERO sa zameriava na výskum a vývoj nových metód a modelov generovania personalizovaných textov v mnohých jazykoch určených pre výskum kvality informácií na webe a sociálnych médiách. Prioritne je zameraný na generatívnu AI vo forme veľkých jazykových modelov. GEPERO je koncipovaný ako rozšírenie projektu AI-CODE (Horizon Europe), ktorého je KInIT riešiteľom.

Primárnym cieľom projektu GEPERO je výskum a vývoj nových metód a modelov generovania personalizovaných textov v mnohých jazykoch určených pre výskum kvality informácií na webe a sociálnych médiách. Projekt GEPERO pre naplnenie tohto cieľa špecificky: 1) preskúma potenciál veľkých jazykových modelov generovať personalizované multilingválne syntetické dáta ako aj parafrázovať/sumarizovať existujúce texty, 2) navrhne a experimentálne overí metódy a modely generovania personalizovaného textu, 3) aplikuje navrhnuté metódy a modely pre vytvorenie znovupoužiteľných a reprezentatívnych datasetov, ktoré prispejú k zvýšeniu presnosti a robustnosti nástrojov pomáhajúcich mediálnym profesionálom.

Oproti už prebiehajúcemu Horizon Europe projektu AI-CODE prinesie GEPERO zameranie na personalizované generovanie multilingválneho textového obsahu. Pod generovaním personalizovaného textu rozumieme obsah, ktorý je špecificky prispôsobený konkrétnemu kontextu. V projekte GEPERO sa konkrétne zameriame na 2 typy personalizácie: 1) personalizácia konkrétnym cieľovým skupinám identifikovaným podľa demografických a osobnostných čŕt (napr. stredoškolskí študenti), a 2) personalizácia pre konkrétne platformy sociálnych médií, pre ktoré sú typické konkrétne črty ako je dĺžka, formát alebo štýl (napr. výskyt hashtagov, emotikonov). Výskum generovania personalizovaného textového obsahu v súčasnom stave poznania úplne absentuje. Pod generovaním multilingválneho textu projekt definuje obsah v mnohých jazykoch, predovšetkým v jazykoch s obmedzenými zdrojmi (angl. low-resource languages), medzi ktoré patrí aj slovenčina. Aspekt multilinguality vhodným spôsobom dopĺňa existujúci stav poznania, v rámci ktorého sa väčšina výskumných aktivít sústredí výhradne na anglický jazyk (príp. ďalšie vybrané svetové jazyky).

V projekte GEPERO vnímame existenciu viacerých výziev pri jeho implementácií, ako je komplexnosť anotácie personalizácie vygenerovaného textu, výpočtová náročnosť generovania textu, ako aj etické a morálne otázky ohľadom potenciálneho zneužitia výsledkov výskumu. Ich riešenie bude spočívať v citlivom použití automatizovaných prostriedkov umelej inteligencie v jednotlivých fázach projektu ako aj obmedzenie zverejnenia zneužiteľných dát, metód a modelov.

Tím projektu

Ivan Srba
Researcher
Dominik Macko
Researcher
Aneta Žugecová
Volunteer
Andrew Pulver
Research Intern
Samuel Budai
Research Intern
Matej Mosnár
Research Engineer
Adam Škurla
Research Engineer
Jozef Barut
Research Intern
Katarína Házyová
Project Administrator
Marianna Palková
Communications Specialist

Financované EÚ NextGenerationEU prostredníctvom Plánu obnovy a odolnosti SR v rámci projektu č. 09I01-03-V04-00068.

Súvisiace publikácie

  • Zugecova, A., Macko, D., Srba, I., Moro, R., Kopal, J., Marcincinova, K., & Mesarcik, M. (2024). Evaluation of LLM Vulnerabilities to Being Misused for Personalized Disinformation Generation. arXiv preprint arXiv:2412.13666.