Sú vysvetlenia, o ktorých si myslíme, že sú dobré, naozaj dobré?

Vysvetliteľná umelá inteligencia: od čiernych skriniek k transparentným modelom

V predošlých článkoch sme si predstavili tri veľmi zaujímavé koncepty z oblasti vysvetliteľnej umelej inteligencie (vysvetliteľná AI alebo XAI):

V tomto článku nadviažeme na tieto koncepty a ukážeme si jeden zo spôsobov, ako nielen získať dobré vysvetlenia, ale zároveň ako overiť, do akej miery rôzne vysvetlenia pomáhajú reálnym ľuďom pri plnení ich úloh.

Vlastnosti dobrých vysvetlení

Pripomeňme si, že podobne ako v strojovom učení a v umelej inteligencii, aj vo vysvetliteľnej AI existuje veľké množstvo algoritmov, po ktorých môže používateľ siahnuť.

Ak si má používateľ informovane vybrať ten správny, potrebujeme mechanizmus, vďaka ktorému vieme rôzne algoritmy porovnávať. Inými slovami, potrebujeme vedieť zmerať, ktoré vysvetlenia sú lepšie a ktoré horšie v kontexte danej úlohy a z pohľadu kritérií, ktoré si stanoví používateľ.

Ešte predtým, než začneme s vlastným meraním, sústreďme sa na to, ČO budeme merať – aké vlastnosti by mali mať dobré vysvetlenia?

Na prvej úrovni hovoríme, že dobré vysvetlenie by malo vyvažovať dva komponenty – zrozumiteľnosť a vernosť:

  • Zrozumiteľnosť kvantifikuje, do akej miery sú používatelia schopní vysvetleniu porozumieť. Napríklad, či neobsahuje priveľa nepodstatných informácií a či ich nezahltí. 
  • Vernosť hovorí, do akej miery vysvetlenie opisuje skutočné správanie a rozhodovací proces modelu. Napríklad, ak nám vysvetlenie tvrdí, že sentiment vety “Dnes je pekné počasie” bol modelom určený ako pozitívny najmä kvôli slovu “pekné”, vernosť meria, či to tak naozaj bolo a či sa náhodou model v skutočnosti nerozhodol podľa iného slova vo vete.

Pri skúmaní môžeme ísť, samozrejme, hlbšie. Každý z komponentov vieme rozdeliť na rôzne vlastnosti, ktoré opisujú ich rôzne aspekty. Pre viac informácií odkazujeme na náš predchádzajúci článok.

Meranie kvality vysvetlení: vyhodnocovanie zamerané na človeka a vyhodnocovanie zamerané na funkcionalitu

Teraz, keď vieme, aké vlastnosti by malo mať dobré vysvetlenie, môžeme sa zamerať na otázku, akým spôsobom vieme tieto vlastnosti zmerať?

Rozlišujeme dve rodiny prístupov k vyhodnocovaniu kvality vysvetlení: Vyhodnocovanie zamerané na človeka a vyhodnocovanie zamerané na funkcionalitu (Obrázok 1).

Obrázok 1: Dve rodiny prístupov na vyhodnocovanie kvality vysvetlení [1].

Pri vyhodnocovaní zameranom na človeka vychádzame z predpokladu, že adresátom vysvetlení je človek a je preto potrebné zapojiť do procesu vyhodnocovania ľudí. Pri vyhodnocovaní zameranom na funkcionalitu je zas cieľom kvantitatívne a automatizované vyhodnotenie kvality vysvetlení, najčastejšie prostredníctvom tzv. proxy (zástupných) metrík. 

Oba typy vyhodnocovania majú svoju nezastupiteľnú rolu a veľmi dobre sa dopĺňajú. Vyhodnocovanie zamerané na funkcionalitu je možné veľmi výhodne použiť na optimalizáciu samotného algoritmu vysvetliteľnej AI (tak, aby produkoval čo najlepšie vysvetlenia). Ak ho však neskombinujeme s vyhodnocovaním zameraným na človeka, nevieme presvedčivo odpovedať na tú najdôležitejšiu otázku – do akej miery vysvetlenia pomáhajú človeku pri plnení jeho úloh?

Pre viac informácií o meraní kvality vysvetlení odkazujeme na náš predchádzajúci článok.

Ako overiť, či zdanlivo najlepšie vysvetlenia najviac pomôžu človeku

Predstavte si, že ste sa presýtili toho, ako ľahko sa na sociálnych sieťach šíria dezinformácie všetkého možného druhu (veríme, že to nie je ťažká úloha). Preto ste sa jedného dňa zobudili a povedali ste si, že vytvoríte vlastnú sociálnu sieť, na ktorej sa bude so škodlivými dezinformáciami aktívne bojovať.

Úspech! Po krátkom čase počet používateľov vašej siete prekročil prvý milión. S tým, ako narástol počet používateľov, však zároveň narástla aj atraktivita vašej siete práve pre tých, proti ktorým ste sa rozhodli bojovať – zámerným šíriteľom dezinformácií. 

Napriek tomu, že ste s tým počítali a dopredu ste vyškolili niekoľko administrátorov, ktorí kontrolujú, či niektorý z príspevkov zámerne nešíri dezinformáciu, je počet dezinformácii taký veľký, že stíhate skontrolovať iba zlomok z nich.

Iterácia 1: Pomôžme administrátorom s AI

Rozhodnete sa svojim administrátorom pomôcť a vytvoríte pre nich nástroj založený na strojovom učení. Tento nástroj má k dispozícii databázu najaktuálnejších dezinformácii, ktoré sa šíria vo verejnom priestore a priebežne kontroluje, či sa v niektorom z príspevkov taká alebo onaká dezinformácia nenachádza. 

Namiesto toho, aby čítali každý jeden príspevok, teraz administrátori dostanú iba preriedený zoznam tých, ktoré váš skvelý nástroj identifikoval ako potenciálne dezinformačné. Teda zoznam príspevkov, ktoré zrejme obsahujú niektoré zo známych dezinformačných tvrdení. Úlohou administrátora je skontrolovať každý takýto príspevok a rozhodnúť, či má byť skrytý, alebo nie. Takáto kontrola je veľmi dôležitá, pretože je nutné sa uistiť, že príspevok je naozaj škodlivý a porušuje pravidlá sociálnej siete, keďže platí sloboda slova.

Obrázok 2: Umelá inteligencia zostaví zoznam podozrivých príspevkov, ktoré môžu obsahovať známe dezinformačné tvrdenie. Úlohou administrátora je takéto podozrenie preveriť a skryť len tie príspevky, pri ktorých sa podozrenie potvrdí.

Iterácia 2: Pomôžme administrátorom s vysvetliteľnou AI

Takýto nástroj ušetrí administrátorom významné množstvo času. Nemôžeme však s použitím vysvetliteľnej AI dosiahnuť ešte viac?

Problémom prvého riešenia je, že niektoré príspevky môžu byť veľmi dlhé a dezinformačné tvrdenie, ak sa v nich nachádza, môže byť skryté až na ich úplnom konci. Navyše, dezinformácia môže tvoriť len veľmi malú časť celého príspevku (často zámerne) a znieť na prvý pohľad odlišne od pôvodného dezinformačného tvrdenia (použitie parafráz). Preto musia administrátori často prečítať celý príspevok, kým zistia, či sa v ňom dané tvrdenie nachádza alebo nie. Je čas na ďalšiu iteráciu.

Tentokrát chcete administrátorom nielen ukázať príspevky, ale zároveň v nich chcete aj vyznačiť konkrétne (krátke) časti, ktoré model AI vyhodnotil ako dezinformáciu. Preto sa rozhodnete siahnuť po vysvetliteľnej AI, aby vám model povedal nielen ČO (“tento príspevok obsahuje dezinformáciu X”), ale aj PREČO (“dezinformácia X je na konci druhého odseku”). Vaša hypotéza je, že vďaka tomu budú musieť administrátori čítať výrazne menej textu a stihnú skontrolovať viac príspevkov, čo povedie k skultivovaniu diskusie.

Obrázok 3: Administrátor vpravo má v príspevkoch zvýraznené, na základe ktorých častí textu (slová, vety, odseky) boli označené príspevky označené za potenciálne dezinformačné. Vďaka tomu musí prechádzať menšie množstvo textu.

Keď ale otvoríte dokumentáciu jednej z populárnych knižníc, ktorá implementuje mnohé algoritmy vysvetliteľnej AI (napr. Captum), zistíte, že takýchto algoritmov je veľké množstvo. Ktorá bude teda tá najlepšia?

Máte viac možností. Môžete sa napríklad spoľahnúť na svoje šťastie a náhodne si vybrať niektorý z algoritmov (“No dobre, ale ako mám nastaviť jej parametre?”) alebo náhodne vyskúšať niekoľko z nich (“Ktoré? A s akými parametrami?”). Keď si ale urobíte prieskum, narazíte na niečo, čo sa volá Automatizovaná vysvetliteľná umelá inteligencia (Automated eXplainable AI alebo AutoXAI) – spôsob, vďaka ktorému viete automatizovane nájsť takú konfiguráciu algoritmu vysvetliteľnosti, ktorá poskytuje dobré vysvetlenia pre konkrétnu úlohu. Toto je presne to, čo ste hľadali a dokonca si môžete zadefinovať, čo znamená “dobré vysvetlenie” pre vašu úlohu.

Pre viac informácií o AutoXAI odkazujeme na náš predchádzajúci článok.

Obrázok 4: V rámci optimalizácie hľadáme taký algoritmus(y) vysvetliteľnej AI a jeho konfiguráciu (parametre), ktorý poskytuje dobré vysvetlenia pre predpovede nášho modelu. Čo znamená “dobré vysvetlenia” definujú dve veci: proxy metriky a “skutočné” vysvetlenia. Proxy metriky merajú, ako blízko sú vysvetlenia poskytnuté XAI algoritmom tým skutočným a aké verné sú.

Vďaka AutoXAI a optimalizácii z veľkého množstva rôznych algoritmov vysvetliteľnej umelej inteligencie získate dva, ktoré by mali na základy proxy metrík (v skutočnosti ide o vyhodnocovanie zamerané na funkcionalitu) poskytovať najlepšie vysvetlenia.

Iterácia 3: A/B testovanie s vyhodnocovaním zameraným na človeka

Predtým, než vysvetlenia sprístupníte všetkým administrátorom, overíte, do akej miery im budú pomáhať pri ich práci. Zároveň sa chcete presvedčiť, či vysvetlenia, ktoré vami zadefinované proxy metriky na meranie ich kvality označili ako najlepšie, budú pre ľudí najviac užitočné.

Urobíte teda A/B test. Jednej skupine administrátorov dáte k dispozícii vysvetlenia od algoritmu, ktorý vzišiel z AutoXAI ako najlepší. Ďalšej skupine dáte vysvetlenia z iného, o niečo menej úspešného algoritmu. Tretia skupiny zostáva bez vysvetlení. Následne necháte administrátorov robiť svoju prácu a budete objektívne merať, koľko času potrebovali na posúdenie tých istých 200 príspevkov (rovnako dobre môžete merať napr. ich chybovosť).

Obrázok 5: A/B testovanie. Tri skupiny administrátorov majú plniť svoju úlohu, pričom každá zo skupín má k dispozícii okrem párov [dezinformačné tvrdenie, príspevok] rôzne vysvetlenia – zvýraznené časti príspevkov, podľa ktorých AI model určil, že sa v nich nachádza dezinformácia. Chceme overiť, či administrátori, ktorí majú podľa proxy metrík k dispozícii najlepšie vysvetlenia, plnia svoju úlohu efektívnejšie ako administrátori s horšími vysvetleniami a administrátori bez vysvetlení.

Hypotéza je, že administrátori, ktorí majú k dispozícii zdanlivo najlepšie vysvetlenia, by mali plniť úlohu najefektívnejšie. V tomto prípade by im mala zabrať najmenej času. Na opačnej strane by mali stáť administrátori, ktorí nemajú k dispozícii žiadne vysvetlenia.

Prečo potrebujeme konfrontovať vyhodnocovanie zamerané na človeka a vyhodnocovanie zamerané na funkcionalitu?

V tretej iterácii sme efektívne konfrontovali to, čo nám hovoria proxy metriky vyhodnocovania zameraného na funkcionalitu s tým, ako v skutočnosti rôzne vysvetlenia pomohli človeku pri jeho práci (vyhodnocovanie zamerané na človeka).

Je viacero veľmi dobrých dôvodov, prečo to robiť:

  • Proxy metriky môžu byť neúplné alebo jednoducho zle zadefinované. Mohlo sa napríklad stať, že proxy metriky preferovali vernosť pred zrozumiteľnosťou a výsledné vysvetlenia tak boli príliš komplexné, v dôsledku čoho mohli pri plnení úlohy viac uškodiť ako pomôcť (pre viac informácií odkazujeme na náš predchádzajúci článok).
  • Množina algoritmov vysvetliteľnej AI, z ktorých sme vyberali, neobsahovala ani jeden algoritmus vhodný na našu úlohu a tak aj víťazný algoritmus mohol mať pre používateľov malú až žiadnu pridanú hodnotu.

Záver

V tejto časti seriálu o vysveteliteľnej umelej inteligencii sme rozšírili myšlienku automatizovanej vysvetliteľnej umelej inteligencie. Ukázali sme si, že vyhodnocovanie vysvetlení zamerané na človeka a na funkcionalitu sa navzájom nevylučujú. Ak ich vhodne skombinujeme, môžeme lepšie overiť, či vysvetlenia nielen spĺňajú nejaké dopredu stanovené kritériá, ale aj či merateľne pomáhajú tomu, komu sú určené – človeku.

Projekt podporil Nadačný fond PricewaterhouseCoopers v Nadácii Pontis.

Referencie

[1] ZHOU, Jianlong, et al. Evaluating the quality of machine learning explanations: A survey on methods and metrics. Electronics, 2021, 10.5: 593.

Vysvetliteľná umelá inteligencia: od čiernych skriniek k transparentným modelom