Esprit: Rozlíšenie geografickej hierarchie v plánovacích dokumentoch

  • Názov projektu: Extrakcia geografických údajov zo slovenských dokumentov
  • Trvanie projektu: Apríl 2024 – Júl 2024
  • Partner: Esprit

Hlavnou úlohou bolo vytvoriť prototyp algoritmu na extrakciu geografických informácií z dokumentov s územnými plánmi. Extrakcia bola zameraná na konkrétne administratívne a katastrálne entity z textu získaného z PDF dokumentov, vrátane krajov, okresov, obcí, katastrálnych území a parciel. Výzva presahovala jednoduchú extrakciu textu, keďže zahŕňala aj riešenie nejednoznačností v geografických odkazoch. Viaceré obce na Slovensku majú rovnaké meno, čo si vyžadovalo správne priradiť každú obec k príslušnému administratívnemu okresu alebo kraju a určiť úplnú geografickú hierarchiu, aj keď jej časti neboli v dokumente explicitne uvedené. Pri extrakcii parciel sú na Slovensku v súčasnosti v používaní dva odlišné systémy označovania, pričom algoritmus musel rozlíšiť medzi nimi a priradiť každú parcelu k správnemu typu označenia.

Ako sme to riešili

Prototyp bol navrhnutý tak, aby zvládol špecifické zložitosti extrakcie geografických údajov z dokumentov územného plánovania. Riešenie sa sústredilo na niekoľko kľúčových oblastí:

  • Rozlíšenie geografickej hierarchie: Algoritmus bol vytvorený tak, aby určil úplnú administratívnu hierarchiu lokality, kraj, okres, obec, aj v prípade, že niektoré úrovne v zdrojovom dokumente chýbali.
  • Dezambiguácia obcí: Vzhľadom na to, že viaceré obce na Slovensku majú rovnaké meno, algoritmus rieši nejednoznačnosť priradením každej obce k správnemu administratívnemu okresu alebo kraju.
  • Rozlíšenie systémov označovania parciel: Oba systémy označovania parciel v súčasnosti používané na Slovensku boli zohľadnené, algoritmus identifikuje typ označenia a priradí ho zodpovedajúcim spôsobom.
  • Spracovanie textových chýb: Boli preskúmané algoritmy textovej podobnosti, ktoré umožňujú správnu extrakciu geografických údajov aj v prípade, že text obsahuje preklepy, chýbajúce diakritické znamienka alebo menšie gramatické chyby.

„Spoluprácou na tomto projekte sme ukázali, že aj z neštruktúrovaných dokumentov sa dajú získať štruktúrované geografické dáta, ktoré sa v nich skrývajú. Výsledný nástroj nielen identifikuje lokality a parcely, ale umožňuje tieto informácie prepájať s ďalšími geografickými dátami, napríklad o prírodných rizikách v danej oblasti. Cieľom bolo prekonať bariéry pri spracovaní dokumentov a automatizovať proces, ktorý bol doteraz závislý od manuálnej práce.“

MIROSLAV BLŠTÁK
AI Specialist, NLP tím

Čo sme dodali

Výsledkom spolupráce je funkčný prototyp extrakčného algoritmu, doplnený o zaškolenie v tom, ako algoritmus funguje a ako ho možno ďalej rozširovať. Uskutočnili sme tiež vzdelávací seminár zameraný na popis, vysvetlenie a porovnanie rôznych algoritmov na výpočet podobnosti textových reťazcov, algoritmov, na ktorých prototyp extrakcie spolieha pri spracovaní nedokonalého vstupného textu.

„Stále sa stretávame s veľkým množstvom dokumentov obsahujúcich dôležité údaje pre územné plánovanie, ochranu prírody a krajiny a krízové riadenie, ktoré nie sú dostupné vo formáte vhodnom na priame strojové spracovanie. Vďaka tejto spolupráci sme mohli lepšie overiť možnosti, limity a vhodné algoritmické prístupy k spracovaniu takýchto údajov, čo nám poskytuje cennú základňu pre ďalší rozvoj riešení podporujúcich efektívne priestorové rozhodovanie. Spolupráca bola na vysokej odbornej úrovni, obohacujúca a posunula nás v tejto oblasti výrazne vpred.“

VERONIKA SOLDÁNOVÁ
GIS Developer, Esprit