GEPERO: Generovanie personalizovaného obsahu vo výskume kvality informácií
Projekt GEPERO sa zameriava na výskum a vývoj nových metód a modelov generovania personalizovaných textov v mnohých jazykoch určených pre výskum kvality informácií na webe a sociálnych médiách. Prioritne je zameraný na generatívnu AI vo forme veľkých jazykových modelov. GEPERO je koncipovaný ako rozšírenie projektu AI-CODE (Horizon Europe), ktorého je KInIT riešiteľom.
Primárnym cieľom projektu GEPERO je výskum a vývoj nových metód a modelov generovania personalizovaných textov v mnohých jazykoch určených pre výskum kvality informácií na webe a sociálnych médiách. Projekt GEPERO pre naplnenie tohto cieľa špecificky: 1) preskúma potenciál veľkých jazykových modelov generovať personalizované multilingválne syntetické dáta ako aj parafrázovať/sumarizovať existujúce texty, 2) navrhne a experimentálne overí metódy a modely generovania personalizovaného textu, 3) aplikuje navrhnuté metódy a modely pre vytvorenie znovupoužiteľných a reprezentatívnych datasetov, ktoré prispejú k zvýšeniu presnosti a robustnosti nástrojov pomáhajúcich mediálnym profesionálom.
Oproti už prebiehajúcemu Horizon Europe projektu AI-CODE prinesie GEPERO zameranie na personalizované generovanie multilingválneho textového obsahu. Pod generovaním personalizovaného textu rozumieme obsah, ktorý je špecificky prispôsobený konkrétnemu kontextu. V projekte GEPERO sa konkrétne zameriame na 2 typy personalizácie: 1) personalizácia konkrétnym cieľovým skupinám identifikovaným podľa demografických a osobnostných čŕt (napr. stredoškolskí študenti), a 2) personalizácia pre konkrétne platformy sociálnych médií, pre ktoré sú typické konkrétne črty ako je dĺžka, formát alebo štýl (napr. výskyt hashtagov, emotikonov). Výskum generovania personalizovaného textového obsahu v súčasnom stave poznania úplne absentuje. Pod generovaním multilingválneho textu projekt definuje obsah v mnohých jazykoch, predovšetkým v jazykoch s obmedzenými zdrojmi (angl. low-resource languages), medzi ktoré patrí aj slovenčina. Aspekt multilinguality vhodným spôsobom dopĺňa existujúci stav poznania, v rámci ktorého sa väčšina výskumných aktivít sústredí výhradne na anglický jazyk (príp. ďalšie vybrané svetové jazyky).
V projekte GEPERO vnímame existenciu viacerých výziev pri jeho implementácií, ako je komplexnosť anotácie personalizácie vygenerovaného textu, výpočtová náročnosť generovania textu, ako aj etické a morálne otázky ohľadom potenciálneho zneužitia výsledkov výskumu. Ich riešenie bude spočívať v citlivom použití automatizovaných prostriedkov umelej inteligencie v jednotlivých fázach projektu ako aj obmedzenie zverejnenia zneužiteľných dát, metód a modelov.
Tím projektu
Financované EÚ NextGenerationEU prostredníctvom Plánu obnovy a odolnosti SR v rámci projektu č. 09I01-03-V04-00068.


Súvisiace publikácie
- Zugecova, A., Macko, D., Srba, I., Moro, R., Kopal, J., Marcincinova, K., & Mesarcik, M. (2024). Evaluation of LLM Vulnerabilities to Being Misused for Personalized Disinformation Generation. arXiv preprint arXiv:2412.13666.