Unsupervised Machine Learning Methods for Behaviour Analysis and Anomaly Detection in University Environment

Thesis title: Unsupervised Machine Learning Methods for Behaviour Analysis and Anomaly Detection in University Environment
Author: Strnad, Pavel
Thesis type: Dissertation thesis
Supervisor: Berka, Petr
Opponents: Kléma, Jiří; Fernández, Alberto ; Žádník, Martin
Thesis language: English
Abstract:
The security of university information systems is currently mostly handled at the perimeter of the data network. It is not assumed that an attacker is able to penetrate the perimeter and cause damage inside the infrastructure. However, the continuous development in the cyber-attack field proves that it is necessary to prepare for situations when an attacker misuses the login credentials of one of the users and starts to cause damage to the information system undetected. Such incidents have also been observed in the past in the environment of the integrated information study system InSIS of the Prague University of Economics and Business. The detection of these incidents was mostly completely random or dependent on feedback from users who found something wrong with the system. In all the identified cases, the changes in the system were so significant that the attacker himself alerted to the ongoing cyber-attack by his actions. This demonstrates that information system administrators rely solely on the vigilance of their users to defend against these types of system intrusions. Therefor there is currently no automated form of defence against these attacks and no way of detecting these intrusions. It is only a question of how many user accounts can be abused without their owners’ knowledge even now. To address this problem, I founded the Hellhound AI project, where my colleagues and I are dedicated to detecting anomalous user behaviour in university information systems environments. This dissertation describes the part of the problem at hand that deals with cyber-attack detection using unsupervised machine learning algorithms, which is the primary focus of my work. This thesis was written in parallel with the dissertation being prepared by my colleague Ing. Lukáš Švarc, which focuses on solving the same problems using supervised machine learning algorithms for comparison. Due to this project’s scope, close collaboration with my colleague was required, which was reflected in our dissertations. Partial experiments reported in this thesis have already been successfully published in internationally recognised conferences and scientific journals. The whole dissertation can be divided into four related parts. The first part is devoted to analysing the current knowledge in this field, where the primary output is a survey of the currently most used unsupervised machine learning algorithms for anomaly detection. This overview serves as the theoretical basis from which the stress tests of the selected algorithms are subsequently based. The second section is devoted to generalising the problem of detecting an ongoing cyber-attack in a university environment. Based on the result from the structured interview and questionnaire survey, the hypothesis that distinguishes the university information systems environment from information systems used in the private sector or the military is confirmed, which means that it is not possible to apply the same procedures for anomaly detection in the university environment as in the private sector or in military. At the same time, the possibility of global an application of the outputs of this dissertation is confirmed here with respect to the similarities exhibited by university information systems both in the Czech Republic and abroad. An important outcome of the questionnaire survey is the definition of the habits of different groups of users who work with the InSIS system. These results are reflected in the experiments described in the third part of this dissertation. The experiments discussed to describe the progress of deploying algorithms K-means and Isolation Forest to detect anomalous user behaviour in specified scenarios. The first experiment is devoted to a stress test of the selected algorithms on known data from the KDDCUP'99 dataset. The following experiment involves using a method in which only one value is calculated for each action, reflecting how much the action differs from the others. This experiment is deliberately set on the issue of student cheating on tests. The following experiments have already been practised on data from the university information system environment of the University of Economics in Prague, where the procedure of detecting first scripted attacks and then manually executed cyber-attacks is demonstrated. A by-product of this part is the Synthetic Dataset Generator from the university environment, which contains features of real cyber-attacks and is able to scale these datasets or add new attacks. This generator aims to make data with user behavioural traits from university environments available to other researchers in the field. The fourth section is devoted to the primary goal of this dissertation, which focuses on creating a methodology that writes down the lessons learned from the experiments conducted and provides know-how for other researchers who would like to pursue this topic further. The methodology defines five key phases that lead to the successful deployment of detection algorithms in a university setting with the goal of long-term sustainability.
Keywords: User behavioural analysis; Anomaly detection; Unsupervised machine learning; University information learning systems; Cyber security
Thesis title: Unsupervised Machine Learning Methods for Behaviour Analysis and Anomaly Detection in University Environment
Author: Strnad, Pavel
Thesis type: Disertační práce
Supervisor: Berka, Petr
Opponents: Kléma, Jiří; Fernández, Alberto ; Žádník, Martin
Thesis language: English
Abstract:
Bezpečnost univerzitních informačních systémů je v současné době převážně řešena na perimetru datové sítě. Nepředpokládá se, že útočník je schopen perimetrem proniknout a napáchat škody uvnitř infrastruktury. Neustálý rozvoj v oblasti kyberútoků ovšem dokazuje, že je třeba se připravit i na situace kdy útočník zneužije přihlašovací údaje některého z uživatelů a začne nepozorovaně škodit v informačním systému. Tyto incidenty byly v minulosti pozorovány i v prostředí Integrovaného studijního informačního systému (InSIS) Vysoké školy ekonomické v Praze. Detekce těchto incidentů byla ve většině případů zcela nahodilá, nebo závislá na zpětné vazbě od uživatelů, kteří zjistili že se systémem není něco v pořádku. Ve všech identifikovaných případech byly změny v systému tak markantní, že na probíhající kyberútok upozornil útočník sám svým jednáním. To ukazuje na fakt, že při obraně proti těmto typům průniků do systému jsou administrátoři informačního systému odkázáni pouze na bdělost svých uživatelů. Znamená to tedy, že automatizovaná forma obrany proti těmto útokům v současné chvíli neexistuje a není žádný způsob, jak tyto průniky do systému detekovat. Je jen otázkou kolik uživatelských účtů může být zneužíváno, bez vědomí jejich majitelů i v současné chvíli. Pro řešení tohoto problému jsem založil projekt Hellhound, kde se společně s kolegy věnujeme detekci anomálního chování uživatelů v prostředí univerzitních informačních systémů. V této disertaci je popsána část dané problematiky, která se věnuje detekci kyberútoků pomocí algoritmů strojového učení bez učitele, na které se ve své práci primárně zaměřuji. Tato práce vznikla souběžně s disertací, kterou zpracovává kolega Ing. Lukáš Švarc. Ten se pro srovnání zaměřuje na řešení stejných problémů s užitím algoritmů strojového učení s učitelem. Z důvodu rozsahu tohoto projektu byla s kolegou vyžadována úzká spolupráce, která se promítla i do našich disertačních prací. Dílčí experimenty uvedené v této práci byly již úspěšně publikovány na mezinárodně uznávaných konferencích a ve vědeckých časopisech. Celou disertaci lze rozdělit do čtyř navazujících částí. První část je věnována analýze současného poznání v tomto oboru, kde primárním výstupem je přehled v současnosti nejčastěji využívaných algoritmů strojového učení bez učitele pro detekci anomálií. Tento přehled slouží jako teoretický základ, ze kterého následně vycházejí zátěžové testy vybraných algoritmů. Druhá část je věnována zobecnění problematiky detekce probíhajícího kybernetického útoku v univerzitním prostředí. Na základě výsledku z provedeného strukturovaného rozhovoru a dotazníkového šetření je potvrzena hypotéza, která odlišuje prostředí univerzitních informačních systémů od informačních systémů používaných v soukromém sektoru, případně v armádě, což znamená že není možné aplikovat stejné postupy pro detekci anomálií v univerzitním prostředí, jako v soukromém sektoru nebo v armádě. Současně je zde potvrzena možnost globálního uplatnění výstupů této disertace s ohledem na podobnosti, které vykazují univerzitní informační systémy jak v České republice, tak i v zahraničí. Důležitým výstupem dotazníkového šetření je definice návyků jednotlivých skupin uživatelů, kteří pracují se systémem InSIS. Tyto výsledky jsou zohledněny v experimentech, které jsou popsány v třetí části této disertace. Diskutované experimenty popisují průběh nasazení algoritmů K-means a Isolation Forest pro detekci anomálního chování uživatelů ve specifikovaných scénářích. První experiment je věnován zátěžovému testu vybraných algoritmů na známých datech z datasetu KDDCUP’99. Následující experiment zahrnuje použití metody, při které je pro každou akci vypočtena pouze jedna hodnota, která odráží jak moc se daná akce liší od ostatních. Tento experiment je záměrně zasazen do problematiky studentského podvádění při testech. Následující experimenty jsou již praktikovány na datech z prostředí univerzitního informačního systému InSIS Vysoké školy ekonomické v Praze, kde je demonstrován postup detekce nejprve skriptovaných útoků a následně i manuálně provedených kyberútoků. Vedlejším produktem této části je Syntetický generátor datasetů z univerzitního prostředí, který obsahuje znaky reálných kybernetických útoků a je schopen tyto datasety škálovat, případně nové útoky přidávat. Cílem tohoto generátoru je zpřístupnit data se znaky chování uživatelů z univerzitního prostředí i jiným vědcům v tomto oboru. Čtvrtá část je věnována hlavnímu cíli této disertace, který je zaměřen na vytvoření metodologie, ve které jsou sepsány zkušenosti získané z provedených experimentů, a poskytuje know-how pro další vědce, kteří by se chtěli touto problematikou dále zajímat. V metodologie je definováno pět stěžejních fází, které vedou k úspěšnému nasazení detekčních algoritmů v univerzitním prostředí s cílem dlouhodobé udržitelnosti.
Keywords: Informační studijní systémy; Behaviorální analýza uživatelů; Strojové učení bez učitele; Detekce anomálií; Kyberbezpečnost

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Doktorský studijní program
Assigned degree: Ph.D.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 11. 9. 2019
Date of submission: 2. 5. 2023
Date of defense: 15. 6. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/70436/podrobnosti

Files for download

    Last update: