Home
Research
Web & User Data Processing
GEPERO: Generovanie personalizovaného obsahu vo výskume kvality informácií

Project

Duration: 01/2024 - 06/2026

Funding agency: Recovery and Resilience Plan

Project type: Scientific project

Principal investigator: Ivan Srba

GEPERO: Generovanie personalizovaného obsahu vo výskume kvality informácií

Projekt GEPERO sa zameriava na výskum a vývoj nových metód a modelov generovania personalizovaných textov v mnohých jazykoch určených pre výskum kvality informácií na webe a sociálnych médiách. Prioritne je zameraný na generatívnu AI vo forme veľkých jazykových modelov. GEPERO je koncipovaný ako rozšírenie projektu AI-CODE (Horizon Europe), ktorého je KInIT riešiteľom.

Primárnym cieľom projektu GEPERO je výskum a vývoj nových metód a modelov generovania personalizovaných textov v mnohých jazykoch určených pre výskum kvality informácií na webe a sociálnych médiách. Projekt GEPERO pre naplnenie tohto cieľa špecificky: 1) preskúma potenciál veľkých jazykových modelov generovať personalizované multilingválne syntetické dáta ako aj parafrázovať/sumarizovať existujúce texty, 2) navrhne a experimentálne overí metódy a modely generovania personalizovaného textu, 3) aplikuje navrhnuté metódy a modely pre vytvorenie znovupoužiteľných a reprezentatívnych datasetov, ktoré prispejú k zvýšeniu presnosti a robustnosti nástrojov pomáhajúcich mediálnym profesionálom.

Oproti už prebiehajúcemu Horizon Europe projektu AI-CODE prinesie GEPERO zameranie na personalizované generovanie multilingválneho textového obsahu. Pod generovaním personalizovaného textu rozumieme obsah, ktorý je špecificky prispôsobený konkrétnemu kontextu. V projekte GEPERO sa konkrétne zameriame na 2 typy personalizácie: 1) personalizácia konkrétnym cieľovým skupinám identifikovaným podľa demografických a osobnostných čŕt (napr. stredoškolskí študenti), a 2) personalizácia pre konkrétne platformy sociálnych médií, pre ktoré sú typické konkrétne črty ako je dĺžka, formát alebo štýl (napr. výskyt hashtagov, emotikonov). Výskum generovania personalizovaného textového obsahu v súčasnom stave poznania úplne absentuje. Pod generovaním multilingválneho textu projekt definuje obsah v mnohých jazykoch, predovšetkým v jazykoch s obmedzenými zdrojmi (angl. low-resource languages), medzi ktoré patrí aj slovenčina. Aspekt multilinguality vhodným spôsobom dopĺňa existujúci stav poznania, v rámci ktorého sa väčšina výskumných aktivít sústredí výhradne na anglický jazyk (príp. ďalšie vybrané svetové jazyky).

V projekte GEPERO vnímame existenciu viacerých výziev pri jeho implementácií, ako je komplexnosť anotácie personalizácie vygenerovaného textu, výpočtová náročnosť generovania textu, ako aj etické a morálne otázky ohľadom potenciálneho zneužitia výsledkov výskumu. Ich riešenie bude spočívať v citlivom použití automatizovaných prostriedkov umelej inteligencie v jednotlivých fázach projektu ako aj obmedzenie zverejnenia zneužiteľných dát, metód a modelov.

Tím projektu

Ivan Srba

Researcher

Dominik Macko

Researcher

Aneta Žugecová

Volunteer

Andrew Pulver

Research Intern

Samuel Budai

Research Intern

Matej Mosnár

Research Engineer

Adam Škurla

Research Engineer

Jozef Barut

Research Intern

Katarína Házyová

Project Administrator

Marianna Palková

Communications Specialist

Financované EÚ NextGenerationEU prostredníctvom Plánu obnovy a odolnosti SR v rámci projektu č. 09I01-03-V04-00068.

Súvisiace publikácie

Zugecova, A., Macko, D., Srba, I., Moro, R., Kopal, J., Marcincinova, K., & Mesarcik, M. (2024). Evaluation of LLM Vulnerabilities to Being Misused for Personalized Disinformation Generation. arXiv preprint arXiv:2412.13666.

GEPERO: Generovanie personalizovaného obsahu vo výskume kvality informácií

Tím projektu

Ivan Srba

Dominik Macko

Aneta Žugecová

Andrew Pulver

Samuel Budai

Matej Mosnár

Adam Škurla

Jozef Barut

Katarína Házyová

Marianna Palková

Súvisiace publikácie

Prečo partnerstvo s KInIT