Keď sa vydávate na mimoriadnu, ale dlhú a namáhavú cestu, je dobré mať kvalitných sprievodcov. Spríjemnia vám náročnú cestu a urobia ju zaujímavou. Ďakujeme, KInIT.
Juraj Štít
Software Architect, Bencont
Spoločnosti, ktoré sa zaoberajú vymáhaním pohľadávok, pomáhajú predajcom a poskytovateľom služieb získať aspoň časť z dlžnej sumy v prípadoch, kedy štandardná komunikácia so zákazníkom zlyhá.
Výzvou v tejto oblasti je obrovské množstvo pohľadávok, ktorými je potrebné zaoberať sa. Za veľmi krátky čas môžu pribudnúť na spracovanie desiatky až stovky tisíc pohľadávok, pričom pri niektorých je šanca, že sa z nich časť vymôže vyššia a pri niektorých nižšia. Dôležitou súčasťou práce analytikov a iných špecialistov je teda prioritizácia pohľadávok podľa odhadovanej šance na ich úspešné vymoženie.
Umelá inteligencia a strojové učenie predstavujú jednu z efektívnych možností, ako zefektívniť proces vymáhania. V prvom rade môžu byť s ich pomocou automatizované viaceré ľudmi opakovane vykonávané kroky, ako napríklad extrakcia dôležitých dát z úradných dokumentov či zmlúv. Strojové učenie má taktiež potenciál pomôcť pri prioritizácii pohľadávok a minimalizovať tak kapacitu ľudí venovanú neúspešnému vymáhaniu pohľadávok.
Pilotný projekt pozostával z dvoch pilierov:
V rámci pilotného projektu sme sa zaoberali problémom klasifikácie textov úradných textov (súdnych rozhodnutí), súvisiacich s procesom vymáhania. Navrhli a porovnali sme viaceré relevantné prístupy založené na spracovaní prirodzeného jazyka a jazykových modeloch (vrátane modelu SlovakBERT). Prístupy, na ktoré sme sa primárne sústredili, boli založené na riešení problému ako klasifikačnej úlohy a úlohy určenia sémantickej podobnosti textov.
Prvé riešenie (klasifikačná úloha) je založené na štandardnom prístupe, kedy sme v prvom kroku spracovali text a následne natrénovali a porovnali spektrum klasifikátorov založených na architektúre transformer.
Druhé riešenie (sémantická podobnosť) v prvom kroku transformuje vstupné texty na tzv. „embeddingy“. Jedná sa o vysoko-dimenzionálne vektory reálnych čísel, ktoré nesú sémantickú informáciu. Znamená to, že texty, ktoré sú si obsahom podobné, by mali byť reprezentované vektormi, ktoré sú si navzájom nejakým spôsobom blízke (v tomto prípade sme marali ich kosínusovú vzdialenosť). Takéto reprezentácie vieme následne použiť na klasifikáciu neznámych textov tak, že identifikujeme K najpodobnejších známych textov a neznámemu dokumentu priradíme triedu na základe ich „hlasovania“. Výhodou tohto prístupu je, že je možné dynamicky pridať novú triedu, do ktorej chceme klasifikovať nové dokumenty bez toho, aby bolo potrebné pretrénovať model strojového učenia – všetko, čo treba, je pridať takéto texty do množiny známych textov.
Na základe analýzy a detailného porovnania oboch prístupov sme dospeli k záveru, že napriek nesporným výhodám prístupu založeného na sémantickej podobnosti sa ako úspešnejší ukázal prístup založený na použití klasifikátora.
V rámci projektu sme tiež vytvorili a poskytli sériu šiestich poldňových interaktívnych workshopov. Cieľom workshopov bolo podporiť prenos znalostí a vytvorenie silnej kompetencie na použitie strojového učenia v praxi vo firme Bencont.
Juraj Štít
Software Architect, Bencont