Use of data mining methods in cyber security

Thesis title: Užití data miningových metod v kyberbezpečnosti
Author: Klačmera, Jan
Thesis type: Diplomová práce
Supervisor: Chudán, David
Opponents: Švarc, Lukáš
Thesis language: Česky
Abstract:
Tato diplomová práce se zabývá problematikou kybernetické bezpečnosti a umělé inteligence. Práce hledá možný průnik těchto dvou oborů a také popisuje metody data miningu, které lze použít právě v oblasti kyberbezpečnosti pro řešení nejrůznějších problémů. V teoretické části práce jsou popsány základní pojmy a technologie v oblasti kyberbezpečnosti, umělé inteligence a data miningu, které jsou dále aplikovány v rámci praktické části práce. Jsou také popsány metodiky, které lze použít při tvorbě data miningových modelů a součástí je i rozbor toho, jaké metriky lze použít při vyhodnocování těchto modelů. V praktické části práce je vytvořen model pro detekci phishingového emailu. Pro trénování modelu byly využity nejrůznější data miningové metody a součástí byla také analýza dat. Cílem práce bylo vyvinout aplikaci za pomoci frameworku Django, která umožní uživateli nahrát a klasifikovat jeho emaily s vysokou přesností. Celkem budou vyvinuty dva modely. Součástí praktické části práce je také vypracovaný dotazník, který byl předložen lidským respondentům, kteří měli ohodnotit předložené emaily zda se jim zdají jako phishingové, či jako validní. Výsledky ukázaly, že model, který pracuje na základě označkového datasetu dosahuje v porovnání s lidskými respondenty lepších výsledků, avšak vyžaduje vyšší interakci ze strany uživatele. Model pracující s textem emailu dosahoval v rámci modelování zdánlivě dobrých výsledků, avšak se následně ukázalo, že má problém s generalizací - špatně klasifikuje dosud neviděné emaily. Tato práce může mít přínos jak pro dílčí uživatele internetu, respektive emailu, ale také pro firmy, jelikož součástí práce je i diskuze toho, jak může phishingový email ovlivnit bezpečnost celé organizace.
Keywords: umělá inteligence; mail; kyberbezpečnost; data mining; phishing
Thesis title: Use of data mining methods in cyber security
Author: Klačmera, Jan
Thesis type: Diploma thesis
Supervisor: Chudán, David
Opponents: Švarc, Lukáš
Thesis language: Česky
Abstract:
This diploma thesis deals with the issues of cyber security and artificial intelligence. The thesis looks for the possible intersection of these two fields and also describes machine learning methods that can be used in the field of cybersecurity to solve various problems. The theoretical part of the thesis describes the basic concepts and technologies in cybersecurity, artificial intelligence and machine learning, which are further applied in the theoretical part of the thesis. Methodologies that can be used in the process of creation machine learning models are also described. Discussion of what metrics can be used in the evaluation of these models is also included. In the practical part of the thesis, a model for phishing e-mail detection is developed. Various machine learning and data analysis methods were used to train the model. The aim of the work was to develop an application using the Django framework that allows the user to upload and classify his incoming e-mails with high accuracy. In total, two models will be developed. The practical part of the work also includes a developed questionnaire that was presented to human respondents who were asked to rate the submitted e-mails whether they seemed to be phishing or valid. The results showed that the model that which works based on the taged dataset achieves better results compared to human respondents, but requires more interaction from the user. The model working with e-mail text achieved seemingly good results in the modelling phase, but subsequently proved to have a generalization problem - it misclassified previously unseen e-mails. This work can be of benefit to partial Internet or e-mail users, but also to companies, as part of the work includes a discussion of how phishing e-mail can affect the security of an entire organization.
Keywords: artificial intelligence; cybersecurity; data mining; phishing; e-mail

Information about study

Study programme: Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 28. 3. 2022
Date of submission: 28. 4. 2023
Date of defense: 1. 6. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/80394/podrobnosti

Files for download

    Last update: