Čo je
Chyťme ich všetky: Náš výskum v oblasti dát pre detekciu útokov na počítačových sieťach
V dnešnom svete je internetové pripojenie považované za nutnosť pre väčšinu ľudí. Internet zohráva kľúčovú úlohu pri fungovaní firiem, online komunikácii, vzdelávaní, ale aj voľnočasových aktivitách. Odhaduje sa, že v roku 2024 používalo internet približne 5,5 miliardy ľudí (68 % svetovej populácie) (Petrosyan, 2024). Zamysleli ste sa však niekedy nad situáciou, keď by Internet nefungoval? Už chvíľkový výpadok by bezpochyby spôsob iritáciu mnohých ľudí, niekoľkohodinové výpadky však vedia spôsobiť miliardové škody a dokonca aj ohrozenie ľudských životov. Zohľadňovanie aspektov kyberbezpečnosti je preto v moderných systémoch nevyhnutné.
Kybernetická bezpečnosť sa vo všeobecnosti delí na tri hlavné odvetvia: prevencia, detekcia a reakcia. Prevencia zahŕňa techniky na obmedzenie možností útoku, výsledkom čoho je značné sťaženie alebo kompletné zamedzenie jeho prevedenia. Príklady týchto techník zahŕňajú inštaláciu softvérových aktualizácií, korektnú konfiguráciu systémov, alebo používanie špecializovaných bezpečnostných mechanizmov, ako napríklad firewally. Dokonalá prevencia je však vzhľadom na množstvo faktorov (napr. zložitosť systémov a ľudské chyby) nedosiahnuteľná (Apruzzese a kol., 2023). Z tohto dôvodu je potrebné klásť značný dôraz aj na opatrenia na detekciu kybernetických útokov a následnú reakciu.
Útoky je obecne možné detegovať na dvoch úrovniach: na koncových systémoch (ang. host-based) a na počítačových sieťach (ang. network-based). V KInIT-e sa zameriavame na obe z nich. Koncovým systémom sa venuje Martin Mocko v jeho práci zameranej na zhlukovanie malvéru, zatiaľ čo Patrik Goldschmidt pracuje na dátovo-centrickom pohľade na doménu detekcie útokov na počítačových sieťach. Tento blog stručne predstaví oblasť detekcie útokov na počítačových sieťach (ang. network intrusion detection, skratka NID) a prezentuje zistenia nášho nedávneho článku o NID dátových sadách.

Obrázok 1: Tri oblasti kybernetickej bezpečnosti: Prevencia (zeleným), detekcia (žltým) a reakcia (oranžovým). Náš výskum v KInIT sa zameriava predovšetkým na oblasť detekcie, ktorú možno ďalej rozdeliť na detekciu založenú na koncových staniciach (malvér) a na detekciu na sieti so snahou odhaliť škodlivé aktivity v prostredníctvom analýzy sieťovej prevádzky.
Detekcia útokov na počítačových sieťach
Ako sme spomínali, detekcia útokov môže byť prevádzaná na úrovni samotných koncových staníc alebo počítačovej siete. Detekciu v počítačových sieťach vykonávajú systémy na detekciu narušenia siete (ang. network intrusion detection system – NIDS), teda hardvérové zariadenia alebo softvéroví agenti monitorujúci počítačovú sieť a identifikujú jej potenciálne neoprávnené použitie, nesprávne použitie, alebo zneužitie. V závislosti od spôsobu detekcie útoku rozlišujeme systémy založené na signatúrach (reagujú na známe vzory útokov) a systémy založené na anomáliách (reagujú na neznáme odchýlky od normálneho stavu). Hoci na tieto účely môžeme použiť množstvo prístupov, metódy strojového učenia a umelej inteligencie sa v mnohých aspektoch ukázali ako účinné a dostali sa do popredia v novodobom NIDS výskume.
Bez ohľadu na algoritmus alebo metódu detekcie, detekčné systémy sa snažia maximalizovať mieru detekcie útokov (ideálne ich odhaliť 100%) a zároveň minimalizovať mieru falošných poplachov, t.j., legitímnu komunikáciu označenú ako škodlivú (ideálne 0%). Za týmto účelom ako výskumníci potrebujeme rôzne referenčné dátové sady, ktoré slúžia na vyhodnotenie navrhovaných metód na posúdenie ich užitočnosti pri nasadení v skutočných sieťach. Aspekt dát je však veľmi problematický vzhľadom na rôzne špecifické charakteristiky NIDS domény.

Obrázok 2: Umiestnenie systému detekcie narušenia siete (NIDS) v počítačovej sieti. Ako je znázornené, NIDS sú zvyčajne umiestnené priamo pred internetovou bránou, pred ktorou sa môže nachádzať aj firewall. NIDS monitoruje aktivitu siete kontrolou jej prevádzky a v prípade zistenia podozrivej aktivity vyvoláva výstrahu, alebo blokuje komunikáciu priamo.
Vlastnosti špecifické pre NIDS doménu a ich vplyv na dáta
Na rozdiel od typických aplikačných oblastí strojového učenia (ML), ako je spracovanie obrazu alebo reči sa musí doména detekcie útokov na počítačových sieťach navyše potýkať so špecifickými vlastnosťami, ktoré značne obmedzujú aplikácie metód založených na dátach, ako je práve strojové učenie. Jednou z takýchto významných vlastností je vysoká variabilita. Keďže je každá počítačová sieť jedinečná, vzory ich aktivít sa medzi nimi do značnej miery líšia. Ako dôsledok tohto faktu je, že detekčný model trénovaný na jednej sieti bude pri použití na druhej sieti pravdepodobne dosahovať neuspokojivé výsledky. Okrem toho, variabilita medzi sieťami nie je všetko. Variabilita sa dokonca vzťahuje aj na prevádzku v rámci jednej siete, keďže sa existujúce vzory prevádzky môžu na rovnakej sieti v priebehu času zásadne meniť. Táto zmena, odborne známa ako konceptuálny alebo modelový posun (ang. concept/model drift) spôsobuje zhoršenie výkonu, ak sa natrénovaný model pravidelne neaktualizuje.
Keďže sa systémy NIDS zameriavajú na odhaľovanie škodlivého správania, útočníci sa ich prirodzene pokúšajú obísť. Táto vlastnosť nepriateľského prostredia ďalej znižuje detekčné schopnosti modelu, keďže sa útočníci snažia metódu explicitne obísť. Medzi ďalšie nepríjemné vlastnosti domény patria problémy s reálnou prevádzkou, keďže jej zachytenie môže ohroziť súkromie používateľov. Jej značkovanie navyše nie je možné vykonávať s absolútnou istotou. V dôsledku spomínaných vlastností sú dáta pre NID účely často simulované, čo vedie k rôznym problém s realistickosťou, keďže simulované údaje nemusia správne reprezentovať dáta z reálneho sveta.
Vyššie uvedené vlastnosti domény zásadne ovplyvňujú dáta sieťovej prevádzky a ich kvalitu. V dôsledku tohto obsahujú existujúce dátové sady viaceré obmedzenia, ktoré limitujú ich použiteľnosť, ako aj dôveryhodnosť výsledkov získaných pri ich použití. V rámci nášho výskumu sme identifikovali deväť typických obmedzení dátových sád a rozdelili ich podľa spôsobu vzniku: spôsobené človekom, spôsobené doménou a ich kombinácia. Zatiaľ čo obmedzenia spôsobené človekom je možné správnou manipuláciou s dátami úplne odstrániť, obmedzenia kvôli doméne sú spôsobené jej prirodzenými vlastnosťami, a preto je ich riešenie problematickejšie. Obmedzenia zhŕňame v obrázku 3.

Obrázok 3: Typické obmedzenia dátových sád pre detekciu útokov na počítačových sieťach. Ako je znázornené, niektoré sú priamym dôsledkom vlastností špecifických pre danú doménu a je náročné ich riešiť (napr. aktuálnosť), niektoré sú spôsobené predovšetkým ľudským faktorom a možno ich úplne odstrániť (napr. dokumentácia) a tie, ktoré ležia v priesečníku oboch je možné adresovať iba čiastočne (napr. nevyváženosť tried – prevádzka NID je prirodzene nevyvážená, ale autori dátových sád sa ju môžu pokúsiť znížiť)
V súčasnosti je jedným z najvýraznejších problémov dátových sád ich aktuálnosť, ktorá je dôsledkom vplyvu výrazného konceptuálneho posunu v doméne. Keďže dátové sady zachytávajú určitý bod v čase v minulosti, ich vzory prevádzky majú tendenciu zastarávať relatívne rýchlo, čím sa hodnota zozbieraných dát znižuje. Zber dát z reálnych sietí navyše pridáva ďalšie problémy ako neistota pri značkovaní prevádzky a obavy o súkromie užívateľov, výsledkom čoho autori dátových sád preferujú simulovať dáta prostredníctvom testovacích prostredí a tvoriť syntetickú prevádzku, znižujúc realizmus dát. Z tohto dôvodu sa nedostatočný realizmus referenčných dátových sád považuje za jednu z hlavných prekážok pri nasadzovaní NIDS založených na detekcií anomálií do reálnych produkčných prostredí (Sommer a Paxson, 2010).
Náš výskum v oblasti dát pre detekciu útokov na počítačových sieťach
Napriek tomu, že bolo nedávno zverejnených množstvo dátových sád pre NID účely, výskumníci často nepoznajú ich vhodné prípady použitia v dôsledku ich nedostatočného preskúmania. Tento fakt sa stal motiváciou pre náš nedávny článok (Goldschmidt a Chudá, 2025), ktorý je v súčasnosti v recenznom konaní v prestížnom vedeckom časopise computers & Security. V tomto článku združujeme poznatky o existujúcich dátových limitáciách, načrtávame ich prepojenie k spomínaným doménovo-špecifickým vlastnostiam, a poskytujeme prehľad verejných referenčných dátových sád pre účely detekcie útokov na počítačových sieťach. Okrem toho článok diskutuje aj odporúčania na správny výber, použitie, a tvorbu NID dát.
V našom článku sme preskúmali 89 populárnych NID dátových sád a extrahovali 13 vlastností, ktoré súližili na ich porovnanie. Extrakciu sme vykonali prostredníctvom manuálneho stiahnutia a exploratívnej dátovej analýzy (EDA). V článku diskutujeme vlastnosti ako objem dát, dĺžka záchytu, typy vykonaných útokov, typ prostredia, alebo veľkosť počítačovej siete použitej pre záchyt. Za týmto účelom zavádzame aj novú taxonómiu kybernetických útokov, ako aj taxonómiu pre dátové sady. Dúfame, že vďaka týmto informáciám uľahčíme budúci výskum a vývoj v NID oblasti s cieľom dosiahnuť lepšiu replikovateľnosť, realistickosť a robustnosť navrhovaných NIDS metód.
V článku ďalej predstavujeme niekoľko zaujímavých zistení na základe analýzy trendov skúmaných dátových sád. Spozorovali sme, že tradičné dátové sady KDD ’99 and NSL-KDD používané v doméne posledných 25 rokov už nepatria medzi najpopulárnejšie dátové sady v terajšom výskume. Tento trend ukazuje, že komunita si uvedomuje nevhodnosť týchto dátových sád, a prešla na iné, novšie dátové sady ako napríklad CIC-IDS2017. Ďalšie zistenia ukazujú rozmach pulikácií v oblasti dát, keďže 51 z 89 skúmaných sád bolo zozbieraných od roku 2020, ako znázorňujeme na obrázku 4. Okrem toho, viac ako tri štvrtiny týchto dátových sád je špecializovaných – teda explicitne zameraných na konkrétny typ útokov alebo sieťové prostredie pre simuláciu.

Obrázok 4: Počet NID dátových sád podľa roku uverejnenia. Ako znázorňujeme na obrázku, počet publikovaných sád v posledných rokoch rástol polynomicky.
Analýza bežnej (neškodnej) sieťovej prevádzky ukázala štyri hlavné možnosti jej generovania – emulácia na báze profilov, emulácia s použitím generátorov prevádzky, zapojenie ľudí do procesu, a úplné vylúčenie normálnej prevádzky. Napriek spomenutým možnostiam však ostáva dosiahnutie ealizmu bežnej prevádzky významnou a náročnou výskumnou otázkou. Na druhej strane, generovanie škodlivej prevádzky je o niečo jednoduchšie, keďže autori dátových sád môžu použiť rovnaké nástroje ako reálni útočníci. Aj keď je v súčasnosti generovanie syntetických dát v NID doméne zriedkavé, veríme, že má veľký potenciál na vyriešenie niekoľko dátových problémov a limitácií v budúcnosti.
Čo ďalej s výskumom dát pre detekciu útokov na počítačových sieťach ďalej?
Behom nášho skúmania dátových sád sme takisto identifikovali niekoľko sľubných smerov pre budúci výskum a vývoj v NID doméne. Vo všeobecnosti a bude budúci výskum sústrediť okolo jednej hlavnej výskumnej otázky: “Ako uľahčiť prístup k správnym, relevantným a realistickým dátam, ktoré reflektujú súčasný kyberbezpečnostný priestor a sieťové charakteristiky?” Na základe tejto otázky sme budúci výskum rozdelli do štyroch hlavných oblastí – 1) generovanie dát, zamerané na získanie aktuálnych a realistických dát; 2) spracovanie dát, skúmajúce typy a granularitu čŕt najvhodnejšie na detekciu určitých typov útokov; 3) validácia dát, formalizujúca metriky a metódy na verifikáciu dát a ich kvality; a 4) publikácia dát, skúmajúca ako distribuovať údaje k ich užívateľom rýchlejšie s kvalitnejšou dokumentáciou.

Obrázok 5: Budúce smery výskumu a vývoja NID dát. Delíme ich na oblasti zamerané na generovanie, spracovanie, validáciu a publikovanie dát.
Jedným z najdôležitejších výskumno-vývojových smerov v oblasti NID dát je riešenie problematiky aktuálnosti dát, ako aj rýchlejšia distribúcia realistických dát k ich koncovým užívateľom. V našom článku ako riešenie navrhujeme princíp kontinuálneho zberu dát z reálnych počítačových sietí a ich následné automatické značenie a publikovanie. Podobné projekty, ako MAWILab alebo Kyoto 2006+, boli navrhnuté už v minulosti, ale v súčasnosti nám nie je známy žiadny podobný aktívny projekt. Z tohto dôvodu sú takéto projekty veľmi žiaduce, keďže umožní výskumníkom a odborníkom z praxe prístup k najnovším vzorom prevádzky na overovanie ich navrhovaných systémov. Kontinuálny zber dát si však vyžaduje pokroky v ďalších aspektoch, ako napríklad presné značkovanie reálnych dát, ktoré je nevyhnuté pre finálnu kvalitu údajov.
Tak či onak, detekcia útokov na počítačových sieťach je typickým príkladom klasickej kyberbezpečnostnej situácie – hry na mačku a myš. V tejto hre dobrí ochrancovia siete stále naháňajú zlých útočníkov, ktorí sú však stále schopní prísť s novými a viac sofistikovanejšími útokmi. Napriek tomu však veríme, že neustály výskum v NIDS oblasti a ďalších bezpečnostných techník poskytne dostatočnú bezpečnosť pre väčšinu internetových používateľov.
Záver
Dáta sú srdcom a dušou každého systému strojového učenia. Keďže väčšina NIDS výskumu v súčasnosti strojové učenie používa, snaha o zabezpečenie vysokej kvality dát je kľúčová pre ďalší posun výskumu v tejto oblasti. Ako sa uvádza v našom článku, množstvo dátových obmedzení brzdí ďalší pokrok v NIDS výskume a limituje spoľahlivosť dosiahnutých výsledkov. V našom článku sme tieto obmedzenia detailne diskutovali, navrhli oblasti budúceho výskumu na ich nápravu, a uviedli sme dostupné referenčné dátové sady za účelom smerovania budúceho NIDS výskumu k lepšej robustnosti a spoľahlivosti. Prečítajte si našu prvotnú verziu článku na arXiv.org pre viac informácií (Goldschmidt a Chudá, 2025).
Referencie
Apruzzese, G., Laskov, P., & Johannes. (2023, 06 31). SoK: Pragmatic Assessment of Machine Learning for Network Intrusion Detection. 2023 IEEE 8th European Symposium on Security and Privacy (EuroS&P), 592-614. 10.1109/EuroSP57164.2023.00042
Goldschmidt, P., & Chudá, D. (2025, 02). Network Intrusion Datasets: A Survey, Limitations, and Recommendations. ArXiv. 10.48550/arXiv.2502.06688
Petrosyan, A. (2024, December 12). Number of internet users worldwide 2024. Statista. Navštívené 2025-02-04. www.statista.com/statistics/273018/number-of-internet-users-worldwide/
Sommer, R., & Paxson, V. (2010). Outside the Closed World: On Using Machine Learning for Network Intrusion Detection. In 2010 IEEE Symposium on Security and Privacy (pp. 305-316). IEEE. 10.1109/SP.2010.25
Tieto aktivity boli podporené Nadáciou Pontis a IFT INFORM TECHNOLOGIES, a. s.