Multimodálne spracovanie: Dokáže sa umelá inteligencia naučiť význam a vzťahy medzi viacerými rôznymi modalitami?

Umelá inteligencia sa v posledných rokoch stala horúcou témou v mnohých odvetviach, keďže jej využitie každým dňom rastie. Aj keď máme ďaleko od všeobecnej umelej inteligencie, ktorá by bola na nerozoznanie od ľudskej bytosti, dnes už dokážeme jednoducho a celkom spoľahlivo riešiť zložité úlohy pomocou počítača. Medzi tieto úlohy patrí napr.:

  • preklad komplikovaného textu do zvoleného jazyka,
  • rozpoznávanie tváre a automatické otvorenie dverí len tej osobe, ktorej fotografia je v databáze zamestnancov,
  • detekcia a lokalizácia voľného parkovacieho miesta pomocou videozáznamu z auta.

Všetky uvedené príklady využívajú komplexné špecifické modely hlbokého učenia na predikovanie požadovaného výstupu s čo najväčšou presnosťou (správne preložené vety, povolenie alebo zákaz otvárania dverí, ulokalita voľného parkovacieho miesta,…). Tieto modely používajú ako vstup v danom čase iba jednu modalitu, preto ich nazývame unimodálne.

Modalita sa vzťahuje na konkrétny spôsob alebo mechanizmus kódovania informácií. Pod rôznymi modalitami rozumieme obraz, video, text alebo zvuk.

V reálnom svete sa však tieto vstupy zvyčajne vyskytujú súčasne. Ich spoločným spracovaním môžeme získať spoľahlivejšie informácie o svete. Tento príklad môžeme vidieť na Obrázku 1. Ak chceme automaticky získať spätnú väzbu od návštevníkov kina, môžeme sa zamerať buď na ich výrazy tváre, alebo sa ich opýtať a zapísať si ich názor, alebo urobiť oboje. V prípadoch, keď je vstup z jednej modality nejednoznačný, môžeme sa spoľahnúť na vstup druhej modality.

Obrázok 1: Tento obrázok názorne ukazuje výhody multimodálnych modelov v porovnaní s unimodálnymi na príklade analýzy sentimentu. V unimodálnom modeli používame naraz iba jednu modalitu a predikujeme sentiment. Modrý vstup predstavuje text, oranžový vstup predstavuje výraz tváre alebo obrázok a žltý vstup predstavuje zvukový záznam. V bimodálnom modeli používame dve modality a v trimodálnom modeli používame tri modality na predikovanie sentimentu. Je jasne vidieť, ako používanie viacerých modalít pomáha lepšie predpovedať spätnú väzbu návštevníkov kina.
Zdroj: [1]

Čo je multimodalita a kedy je model multimodálny?

Multimodalita v strojovom učení nastáva, keď sú dva alebo viac vstupov zaznamenaných na rôznych typoch médií a ktoré nie je možné na seba jednoznačne napojiť pomocou algoritmu, spracované rovnakým modelom strojového učenia. To znamená, že model hlbokého učenia, ktorý spracováva video a písaný text, je multimodálny. Model, ktorý spracováva obrázky vo formátoch PDF a JPG (ktoré možno previesť z jedného formátu na druhý bez straty informácie), je unimodálny.

Ľudia sú prirodzene dobrí v chápaní a spájaní viacerých modalít súčasne bez toho, aby si to uvedomovali. Počas pozerania filmu sme schopní lokalizovať objekty, rozpoznávať scény alebo činnosti. Môžeme čítať titulky, vnímať vzťahy medzi postavami a sústrediť sa na význam slov, ktoré postavy hovoria. Emócie alebo dôležitosť situácie môžeme pochopiť napríklad prostredníctvom intenzity a dôrazu hlasu. Všetky tieto vstupy a modality sú súčasne spracované v našom mozgu a vytvárame z nich zmysluplné a zrozumiteľné predstavy. Jednoducho povedané, ľudský mozog je multimodálny.

V KInITe sme sa začali zameriavať na modelovanie obrazu a jazyka súčasne, konkrétnejšie na spracovanie obrázkov a textu pomocou jedného modelu. Táto oblasť multimodálneho spracovania má mnoho aplikácií, ako je napr. pomoc ľuďom so zrakovým postihnutím, zefektívnenie zdravotnej starostlivosti pomocou automatických opisov röntgenov alebo CT skenov, či pochopenie obrázkov zverejnených na sociálnych sieťach a zakázanie tých, ktoré majú nevhodný obsah.

V súčasnosti rozbiehame projekt DisAI v rámci programu Horizont Európa . V projekte sa zameriavame na boj proti dezinformáciám pomocou umelej inteligencie, ktorý zahŕňa aj výskum dezinformácií, ktoré používajú kombináciu obrazu a textu.

Vývoj modelov používaných na spracovanie obrázkov a textu súčasne: od štatistických modelov k transformerom

V poslednom čase došlo k veľkému zlepšeniu vo výskume spracovania obrazu a jazyka súčasne. Jedným z prvých pokusov o takéto modely pred neurónovými sieťami boli štatistické algoritmy, ako je kanonická korelačná analýza. Kanonická korelačná analýza je metóda na nájdenie spoločnej reprezentácie dvoch vektorov ako lineárnej kombinácie.

Po vzniku neurónových sietí boli zavedené prepracovanejšie metódy. Ako prvé bolo použité spojenie CNN (spracovanie obrázkov konvolučnou neurónovou sieťou) a LSTM alebo inej embedingovej techniky (spracovanie textu rekurentnou neurónovou sieťou) pomocou zreťazenia (konkatenácie), elementárneho vektorového násobenia alebo neskôr pomocou mechanizmu pozornosti. Jedna z týchto metód je znázornená na Obrázku 2.

Obrázok 2: Príklad jednej z prvých multimodálnych reprezentácií vytvorených pomocou neurónových sietí. Zelený model vysvetľuje spracovanie obrázka pomocou CNN, modrý model používa pre získanie textových prvkov prístup skip-gramu. Tieto dve reprezentácie sú potom zreťazené, aby vytvorili multimodálny slovný vektor.
Zdroj: [2]

Po tom, čo Vaswani predstavil architektúru transformer [3], ktorá získala obrovský úspech a state-of-the-art výsledky (najlepšie v porovnaní s ostatnými modelmi) pre úlohy NLP, začal sa mechanizmus pozornosti používať na kombinované spracovanie jazyka a obrazu.

Na modelovanie krížovej interakcie medzi modalitami existujú dva typy transformerov: jednoprúdové a dvojprúdové.

V jednoprúdovom transformeri sa používa architektúra podobná BERT. To znamená, že vektor predstavujúci textovú reprezentáciu a vektor predstavujúci reprezentáciu obrázku (so špeciálnymi prvkami na označenie polohy, napríklad poradie slova vo vete) sú zreťazené do jednej reprezentácie a tá je vstupom do enkódera transformera. Príkladmi týchto modelov sú VisualBERT [4], V-L BERT [5] alebo OSCAR [6].

Na druhej strane, dvojprúdové transformery najprv spracujú obidve reprezentácie samostatnými transformermi a potom ich kombinujú pomocou krížovej pozornosti (cross-attention), kde query-vektory sú z jednej modality, zatiaľ čo key-vektory a value-vektory sú z druhej. Príkladmi týchto modelov sú ViLBERT [7], LXMERT [8] alebo ALBERT [9]. Rozdiel medzi jednoprúdovou architektúrou a dvojprúdovou architektúrou je zobrazený na obrázku 3.

Obrázok 3: Porovnanie jednoprúdového (vľavo) a dvojprúdového (vpravo) transformera na spracovanie obrazu a textu. 
Zdroj: [10]

Okrem týchto transformerov existujú aj takzvané duálne enkódery, ktoré používajú dva samostatné enkódery, v ktorých sa spracováva každá modalita zvlášť. Potom sa tieto reprezentácie premietnu do spoločného sémantického priestoru a pomocou mechanizmu pozornosti alebo skalárneho súčinu sa spočíta a maximalizuje skóre podobnosti medzi pármi. Reprezentácia opisu a obrázku, ktorý opisuje, budú v priestore blízko seba, zatiaľčo od reprezentácie obrázku, ktorý s opisom nesúvisí, bude ďaleko. Najznámejším duálnym enkodérom je CLIP [11] a jeho predtrénovanie môžeme vidieť na Obrázku 4. Podrobnejšie popisy rozdielov, výhod a nevýhod jednotlivých prístupov spracovania modalít možno nájsť napríklad v tomto výskumnom článku [12].

Obrázok 4: Architektúra CLIP – najskôr sa obrázok a text enkódujú oddelene a potom sa reprezentácie premietnu do rovnakého sémantického priestoru pomocou skalárneho súčinu. Toto skóre podobnosti je maximalizované pre popis a obrázok, ktoré sa zhodujú (na diagonále) a minimalizované pre tie dvojice, ktoré sa nezhodujú.
Zdroj: [11]

Na čo sa používajú modely spracúvajúce obraz a text?

Existuje oveľa viac modelov ako tie, ktoré sme spomenuli vyššie, ale často je ich architektúra špecifická pre konkrétne úlohy, na ktoré sa používa. Vo vedeckých prácach sa uvádzajú rôzne viac či menej náročné úlohy spojené s jazykom a obrázkom. Prvou, veľmi populárnou úlohou, je generovanie popisu obrázka, kde hlavným cieľom je vygenerovať zmysluplný a gramaticky správny popis celého obrázka. Zložitejšou úlohou je generovanie príbehu o slede obrázkov, kde pre súbor niekoľkých obrázkov treba v poradí vygenerovať popis každého z nich tak, aby spolu vytvorili krátky príbeh.

Ďalšie dve úlohy sú zamerané na odkazujúce výrazy (referring expression). Ide o frázy tvorené prevažne podstatnými menami a atribútmi, ktoré jednoznačne vystihujú daný predmet alebo osobu na obrázku (napríklad žena v červenom klobúku vedľa muža so psom). Tie možno generovať (generovanie odkazujúceho výrazu) v prípade, keď sa vyberie objekt na obrázku a vygeneruje sa jednoznačná fráza. Úloha môže byť aj opačná, keď ide o pochopenie (porozumenie odkazujúceho výrazu) a je potrebné nájsť polohu predmetu alebo osoby, keď je zadaný obrázok a fráza.

Známou úlohou je aj zodpovedanie otázok o obrázku. Môže ísť o úlohu, kde sa odpoveď dá vybrať z viacerých možností, alebo ide o odpoveď na otvorenú otázku a odpoveď sa generuje slovo po slove. Zdôvodňovanie týchto odpovedí je sťažením tejto úlohy, pretože na veľmi sofistikované otázky je potrebné vedieť uvažovať o vizuálnom svete. Prirodzeným pokračovaním úlohy o zodpovedaní otázok je (presne ako je generovanie príbehu pokračovaním ku generovaniu popisu obrazu) obrazový dialóg, kde model odpovedá na otázky, no stále si pamätá predchádzajúce odpovede a spája ich do dialógu.

Veľmi zaujímavou, ale asi nie tak často diskutovanou úlohou je image entailing. Model sa musí rozhodnúť, či veta alebo skôr hypotéza o obrázku, úplne podporuje scénu zobrazenú na obrázku, úplne jej odporuje alebo sa nedá presne rozhodnúť.

V posledných rokoch sa generovanie obrázkov stalo veľmi populárnou úlohou. Je to inverzná úloha ku generovaniu popisu obrázka. Je presnejšia než kedykoľvek predtým aj vďaka novému modelu DALL-E 2 [13]. Úlohou modelu je pomocou uvedeného textového popisu vygenerovať nový, uveriteľný obrázok.

Samozrejme, existujú aj iné úlohy, v ktorých sa spracováva obraz a text. Môžeme ich nájsť v rôznych zhrňujúcich článkoch (ako je napríklad tento [14]), každopádne vyššie uvedené úlohy sú tie najznámejšie.

Existujúce problémy a otvorené otázky pri spracovaní obrazu a jazyka

Avšak aj s najlepšími transformermi určenými pre špecifické úlohy sme stále ďaleko od dokonalého modelu, ktorý by rozumel obrazu a textu zároveň. Bráni tomu existencia rôznych otvorených problémov v tejto oblasti, a preto sa tieto problémy v súčasnosti veľmi poctivo skúmajú.

Jedným z nich je, že veľkosť modelov (počet parametrov) a veľkosť datasetov rastie neuveriteľnou rýchlosťou. To znamená, že niektorí výskumníci už nie sú schopní trénovať konkurencieschopné modely, pretože nemajú prístup k dostatočnej výpočtovej sile. Tento prístup (viac parametrov – väčšia presnosť modelu) je nešetrný aj pre životné prostredie, keďže na trénovanie takýchto modelov je potrebné stále viac energie.

Ďalší problém je nazývaný halucinácia objektov. Toto sa deje napr. pri generovaní popisu obrázka, keď vygenerovaný popis obsahuje slovo popisujúce objekt, ktorý sa na obrázku vôbec nenachádza. Stáva sa to preto, že model je zvyknutý vidieť objekt v danom kontexte a spolieha sa na naučený kontex viac ako na skutočný vizuálny vstup. S týmto problémom súvisí aj problematické vyhodnocovanie vygenerovaného textu, keďže jeden obrázok môže mať viacero rôznych, ale správnych popisov.

Môžeme spomenúť aj iné problémy. Napríklad datasety často obsahujú štatistické odchýlky. Úlohy, ktoré vyžadujú informácie z oboch modalít s rovnakou dôležitosťou, sa stanú riešiteľnými tak, že modely využijú zaujatosť (bias) v dátach v jedinej modalite a robia predikcie len na základe nej. 

Ďalším problémom, ktorý sme už okrajovo spomenuli, je, že veľké transformery majú stovky miliónov parametrov. To znamená, že sú pre ľudí nezrozumiteľné a ich rozhodnutia a výsledky nemožno priamo vysvetliť. Tiež majú problém so zovšeobecňovaním, keďže modely sa učia len to, čo vidia v trénovacej množine, a tak často nevedia vedomosti aplikovať v inom nastavení.

Problémy zaujatosti, vysvetliteľnosti a robustnosti modelov sú niektoré z tém, ktorým sa v KInITe venujeme popri priamom nasadení modelov na praktické použitie, napr. v spomínanom boji proti dezinformáciám.

Zdroje:

[1] Zadeh, A., Chen, M., Poria, S., Cambria, E., & Morency, L. P. (2017). Tensor fusion network for multimodal sentiment analysis. arXiv preprint arXiv:1707.07250.

[2] Kiela, D., & Bottou, L. (2014, October). Learning image embeddings using convolutional neural networks for improved multi-modal semantics. In Proceedings of the 2014 Conference on empirical methods in natural language processing (EMNLP) (pp. 36-45).

[3] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.

[4] Li, L. H., Yatskar, M., Yin, D., Hsieh, C. J., & Chang, K. W. (2019). Visualbert: A simple and performant baseline for vision and language. arXiv preprint arXiv:1908.03557.

[5] Su, W., Zhu, X., Cao, Y., Li, B., Lu, L., Wei, F., & Dai, J. (2019). Vl-bert: Pre-training of generic visual-linguistic representations. arXiv preprint arXiv:1908.08530.

[6] Li, X., Yin, X., Li, C., Zhang, P., Hu, X., Zhang, L., … & Gao, J. (2020, August). Oscar: Object-semantics aligned pre-training for vision-language tasks. In European Conference on Computer Vision (pp. 121-137). Springer, Cham.

[7] Lu, J., Batra, D., Parikh, D., & Lee, S. (2019). Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in neural information processing systems, 32.

[8] Tan, H., & Bansal, M. (2019). Lxmert: Learning cross-modality encoder representations from transformers. arXiv preprint arXiv:1908.07490.

[9] Lan, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P., & Soricut, R. (2019). Albert: A lite bert for self-supervised learning of language representations. arXiv preprint arXiv:1909.11942.

[10] Cao, J., Gan, Z., Cheng, Y., Yu, L., Chen, Y. C., & Liu, J. (2020, August). Behind the scene: Revealing the secrets of pre-trained vision-and-language models. In European Conference on Computer Vision (pp. 565-580). Springer, Cham.

[11] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. (2021, July). Learning transferable visual models from natural language supervision. In International Conference on Machine Learning (pp. 8748-8763). PMLR.

[12] Du, Y., Liu, Z., Li, J., & Zhao, W. X. (2022). A survey of vision-language pre-trained models. arXiv preprint arXiv:2202.10936.

[13] Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., & Chen, M. (2022). Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125.

[14] Mogadala, A., Kalimuthu, M., & Klakow, D. (2021). Trends in integration of vision and language research: A survey of tasks, datasets, and methods. Journal of Artificial Intelligence Research, 71, 1183-1317.