Automatic Detection of Errors and Anomalies in Data

Thesis title: Automatická detekce chyb a anomálií v datech
Author: Martínková, Marie
Thesis type: Bakalářská práce
Supervisor: Pejčoch, David
Opponents: Máša, Petr
Thesis language: Česky
Abstract:
Bakalářská práce se zabývá automatickou detekcí problémů v datech s důrazem na využití moderních technologií pro zajištění datové kvality. Cílem práce je představit možnosti automatizace při identifikaci typických problémů v datech, jako jsou chybějící nebo nevalidní hodnoty, odlehlé hodnoty a anomálie, schema drift a data drift. Teoretická část vymezuje klíčové pojmy, dimenze datové kvality a úlohy spojené s jejím řízením, přičemž zvláštní pozornost je věnována konceptu rozšířené datové kvality, který propojuje tradiční přístupy s pokročilými nástroji, jako jsou strojové učení, zpracování přirozeného jazyka a velké jazykové modely (LLM). V praktické části jsou navrženy a otestovány různé metody detekce problémů v reálném datovém souboru. Použité přístupy zahrnují pravidlové systémy, algoritmy strojového učení, nástroje pro automatickou profilaci a využití LLM. Výsledky ukazují, že automatizovaná detekce je technicky proveditelná a prakticky přínosná, zejména při kombinaci více metod. Pravidlové přístupy poskytují transparentní a snadno interpretovatelné výstupy, zatímco velké jazykové modely nabízejí vyšší flexibilitu a schopnost zachytit složitější vzory v datech. Jejich využití však vyžaduje pečlivou validaci, protože bez kontextuálního přizpůsobení mohou generovat nepřesné nebo nadbytečné výsledky. Práce zároveň identifikuje směry dalšího rozvoje v oblasti automatizace datové kvality, jako je například systematické testování výstupů LLM na anotovaných datech, zkoumání vlivu kontextualizace vstupů nebo integraci detekčních nástrojů do širších datových ekosystémů. Výsledky této práce tak mohou sloužit jako výchozí bod pro další výzkum i praktické nasazení nástrojů pro efektivní správu dat.
Keywords: automatická detekce; rozšířená datová kvalita; datová kvalita
Thesis title: Automatic Detection of Errors and Anomalies in Data
Author: Martínková, Marie
Thesis type: Bachelor thesis
Supervisor: Pejčoch, David
Opponents: Máša, Petr
Thesis language: Česky
Abstract:
The bachelor thesis focuses on the automated detection of data issues, with an emphasis on the use of modern technologies to ensure data quality. The aim of the thesis is to present automation possibilities for identifying common data problems such as missing or invalid values, outliers and anomalies, schema drift, and data drift. The theoretical part defines key concepts, dimensions of data quality, and tasks related to its management, with special attention given to the concept of augmented data quality, which integrates traditional approaches with advanced tools such as machine learning, natural language processing (NLP), and large language models (LLMs). In the practical part, various methods for detecting data issues in a real dataset are proposed and tested. The approaches include rule-based systems, machine learning algorithms, automated profiling tools, and the use of LLMs. The results show that automated detection is both technically feasible and practically beneficial, especially when combining multiple methods. Rule-based approaches provide transparent and easily interpretable outputs, while large language models offer greater flexibility and the ability to capture more complex patterns in data. However, their use requires careful validation, as they may produce inaccurate or redundant results without contextual adaptation. The thesis also identifies directions for further development in the field of data quality automation, such as systematic testing of LLM outputs on annotated data, exploring the impact of input contextualization, or integrating detection tools into broader data ecosystems. The findings of this thesis can serve as a starting point for further research and practical deployment of tools for effective data management.
Keywords: automated detection; augmented data quality; data quality

Information about study

Study programme: Informační média a služby
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 10. 12. 2024
Date of submission: 26. 6. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: