University of Economics log patternisation

Thesis title: Patternizace logů Vysoké školy ekonomické
Author: Šandová, Barbora
Thesis type: Diplomová práce
Supervisor: Maršálek, Karel
Opponents: Novotný, Ota
Thesis language: Česky
Abstract:
Tato diplomová práce se zabývá návrhem a implementací systému pro automatizované zpracování a analýzu logů v prostředí Vysoké školy ekonomické v Praze. Práce reaguje na problém nedostatečného monitoringu kybernetické bezpečnosti, kdy z více než 2 200 zdrojů logů bylo dosud analyzováno pouze přibližně 30. Implementované řešení využívá algoritmus Extended Nagappan-Vouk (ENV) pro efektivní identifikaci vzorů v logových datech s dosaženým F1 skóre 96,0 %. Pro optimalizaci výkonu byly implementovány techniky paralelního zpracování a sloupcově orientované úložiště Apache Parquet, které redukovalo velikost souborů o 70-85 % a zrychlilo načítání dat až o 90 %. Systém zkrátil dobu zpracování měsíčního objemu logů z původních 12 hodin na pouhých 15 minut, což představuje 48násobné zrychlení. Součástí řešení je interaktivní dashboard vyvinutý v knihovně Streamlit, který poskytuje uživatelsky přívětivé rozhraní pro vizualizaci a interpretaci výsledků. Navržený systém významně posiluje kybernetickou bezpečnost VŠE zlepšením schopnosti detekce potenciálních bezpečnostních incidentů a umožňuje efektivní filtrování a analýzu logů. Práce také diskutuje možnosti dalšího vývoje, včetně implementace zpracování v reálném čase a využití technik strojového učení pro automatickou detekci anomálií.
Keywords: vizualizace bezpečnostních dat; analýza logů; kybernetická bezpečnost; Extended Nagappan-Vouk algoritmus; paralelní zpracování dat
Thesis title: University of Economics log patternisation
Author: Šandová, Barbora
Thesis type: Diploma thesis
Supervisor: Maršálek, Karel
Opponents: Novotný, Ota
Thesis language: Česky
Abstract:
This diploma thesis focuses on the design and implementation of a system for automated processing and analysis of logs at the University of Economics in Prague. The work addresses the problem of insufficient cybersecurity monitoring, where only approximately 30 out of more than 2,200 log sources have been analyzed so far. The implemented solution uses the Extended Nagappan-Vouk (ENV) algorithm for effective identification of patterns in log data, achieving an F1 score of 96.0 %. For performance optimization, parallel processing techniques and Apache Parquet columnar storage were implemented, reducing file sizes by 70-85 % and accelerating data loading by up to 90 %. The system shortened the processing time of monthly logs from the original 12 hours to just 15 minutes, representing a 48-fold speed improvement. An interactive dashboard developed using the Streamlit library forms part of the solution, providing a user-friendly interface for visualization and interpretation of results. The designed system significantly strengthens the university's cybersecurity by improving the detection of potential security incidents and enables efficient filtering and analysis of logs. The thesis also discusses possibilities for further development, including the implementation of real-time processing and the use of machine learning techniques for automatic anomaly detection.
Keywords: log analysis; cybersecurity; security data visualization; Extended Nagappan-Vouk algorithm; parallel data processing

Information about study

Study programme: Data a analytika pro business
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 30. 1. 2023
Date of submission: 4. 5. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: