Patternizace logů Vysoké školy ekonomické

Název práce: Patternizace logů Vysoké školy ekonomické
Autor(ka) práce: Šandová, Barbora
Typ práce: Diplomová práce
Vedoucí práce: Maršálek, Karel
Oponenti práce: Novotný, Ota
Jazyk práce: Česky
Abstrakt:
Tato diplomová práce se zabývá návrhem a implementací systému pro automatizované zpracování a analýzu logů v prostředí Vysoké školy ekonomické v Praze. Práce reaguje na problém nedostatečného monitoringu kybernetické bezpečnosti, kdy z více než 2 200 zdrojů logů bylo dosud analyzováno pouze přibližně 30. Implementované řešení využívá algoritmus Extended Nagappan-Vouk (ENV) pro efektivní identifikaci vzorů v logových datech s dosaženým F1 skóre 96,0 %. Pro optimalizaci výkonu byly implementovány techniky paralelního zpracování a sloupcově orientované úložiště Apache Parquet, které redukovalo velikost souborů o 70-85 % a zrychlilo načítání dat až o 90 %. Systém zkrátil dobu zpracování měsíčního objemu logů z původních 12 hodin na pouhých 15 minut, což představuje 48násobné zrychlení. Součástí řešení je interaktivní dashboard vyvinutý v knihovně Streamlit, který poskytuje uživatelsky přívětivé rozhraní pro vizualizaci a interpretaci výsledků. Navržený systém významně posiluje kybernetickou bezpečnost VŠE zlepšením schopnosti detekce potenciálních bezpečnostních incidentů a umožňuje efektivní filtrování a analýzu logů. Práce také diskutuje možnosti dalšího vývoje, včetně implementace zpracování v reálném čase a využití technik strojového učení pro automatickou detekci anomálií.
Klíčová slova: vizualizace bezpečnostních dat; analýza logů; kybernetická bezpečnost; Extended Nagappan-Vouk algoritmus; paralelní zpracování dat
Název práce: University of Economics log patternisation
Autor(ka) práce: Šandová, Barbora
Typ práce: Diploma thesis
Vedoucí práce: Maršálek, Karel
Oponenti práce: Novotný, Ota
Jazyk práce: Česky
Abstrakt:
This diploma thesis focuses on the design and implementation of a system for automated processing and analysis of logs at the University of Economics in Prague. The work addresses the problem of insufficient cybersecurity monitoring, where only approximately 30 out of more than 2,200 log sources have been analyzed so far. The implemented solution uses the Extended Nagappan-Vouk (ENV) algorithm for effective identification of patterns in log data, achieving an F1 score of 96.0 %. For performance optimization, parallel processing techniques and Apache Parquet columnar storage were implemented, reducing file sizes by 70-85 % and accelerating data loading by up to 90 %. The system shortened the processing time of monthly logs from the original 12 hours to just 15 minutes, representing a 48-fold speed improvement. An interactive dashboard developed using the Streamlit library forms part of the solution, providing a user-friendly interface for visualization and interpretation of results. The designed system significantly strengthens the university's cybersecurity by improving the detection of potential security incidents and enables efficient filtering and analysis of logs. The thesis also discusses possibilities for further development, including the implementation of real-time processing and the use of machine learning techniques for automatic anomaly detection.
Klíčová slova: log analysis; cybersecurity; security data visualization; Extended Nagappan-Vouk algorithm; parallel data processing

Informace o studiu

Studijní program / obor: Data a analytika pro business
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 30. 1. 2023
Datum podání práce: 4. 5. 2025
Datum obhajoby: 2025

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: