DisTraceAI: Lepšie určovanie prítomnosti naratívov v automaticky analyzovanom obsahu na webe

Projekt DisTraceAI prispeje k riešeniu potreby detekcie prebiehajúcich dezinformačných kampaní výskumom efektívnych metód detekcie prítomnosti naratívov v textovom obsahu. Projekt si kladie za cieľ túto detekciu umožniť aj vo vybraných jazykoch s menšími dostupnými zdrojmi. Projekt DisTraceAI je koncipovaný ako rozšírenie projektu veraAI (Horizontu Európa), ktorého je KInIT riešiteľom.

Cieľom projektu DisTraceAI je výskum metód a modelov umelej inteligencie na detekciu dezinformačných a manipulatívnych kampaní v online obsahu (z webu a sociálnych médií). Metódy a modely budú zamerané na spracovanie textu, fundamentálne multilinguálne, a prispôsobené predovšetkým potrebám stredoeurópskeho informačného priestoru. Keďže predpokladom detekcie kampaní je predchádzajúca detekcia naratívov a tvrdení vyskytujúcich sa v obsahu, DisTraceAI dedikuje časť kapacity aj na výskum týchto metód a modelov. 

Okrem toho preskúmame možnosti skorej detekcie dezinformačných a manipulatívnych kampaní ešte pred ich úplným rozvinutím v online priestore. Oproti už prebiehajúcemu Horizon Europe projektu vera.ai, prinesie DisTraceAI pokročilejšie metódy spracovania textu (predovšetkým založené na najnovších veľkých jazykových modeloch), regionálnu a obsahovo-doménovú špecifickosť metód (spolu s novým datasetom zameraným na náš región), dôraz na detekciu kampaní v reálnom čase, a robustnosť voči novým dezinformačným naratívom.

Projekt vychádza z predpokladu, že dezinformácia a dezinformačné kampane majú charakteristické vzory a súvislosti, ktoré je možné identifikovať pomocou analytických metód a umelej inteligencie.

DisTraceAI využíva moderné metódy strojového učenia, spracovania prirodzeného jazyka a analýzu dát na riešenie problému identifikácie a detekcie dezinformácií v online médiách. Kľúčovým faktorom tiež je získavanie kvalitných trénovacích dát a rôznorodý dataset pre zabezpečenie účinnosti modelov v reálnom svete. Keďže predpokladáme nedostatok značiek (labels), využívame techniky limited labelled learning, akými sú transfer learning, meta-learning, semi supervised learning a weak labels.

Project team

Maria Bielikova
Lead and Researcher
Katarína Házyová
Project Administrator
Dominik Macko
Researcher
Róbert Móro
Researcher
Róbert Belanec
PhD Student
Ján Čegiň
PhD Student
Marianna Palková
Communications Specialist

Financované EÚ NextGenerationEU prostredníctvom Plánu obnovy a odolnosti SR v rámci projektu č. 09I01-03-V04-00006.