Thesis title: |
Automatická detekce chyb a anomálií v datech |
Author: |
Martínková, Marie |
Thesis type: |
Bakalářská práce |
Supervisor: |
Pejčoch, David |
Opponents: |
Máša, Petr |
Thesis language: |
Česky |
Abstract: |
Bakalářská práce se zabývá automatickou detekcí problémů v datech s důrazem na využití moderních technologií pro zajištění datové kvality. Cílem práce je představit možnosti automatizace při identifikaci typických problémů v datech, jako jsou chybějící nebo nevalidní hodnoty, odlehlé hodnoty a anomálie, schema drift a data drift. Teoretická část vymezuje klíčové pojmy, dimenze datové kvality a úlohy spojené s jejím řízením, přičemž zvláštní pozornost je věnována konceptu rozšířené datové kvality, který propojuje tradiční přístupy s pokročilými nástroji, jako jsou strojové učení, zpracování přirozeného jazyka a velké jazykové modely (LLM). V praktické části jsou navrženy a otestovány různé metody detekce problémů v reálném datovém souboru. Použité přístupy zahrnují pravidlové systémy, algoritmy strojového učení, nástroje pro automatickou profilaci a využití LLM. Výsledky ukazují, že automatizovaná detekce je technicky proveditelná a prakticky přínosná, zejména při kombinaci více metod. Pravidlové přístupy poskytují transparentní a snadno interpretovatelné výstupy, zatímco velké jazykové modely nabízejí vyšší flexibilitu a schopnost zachytit složitější vzory v datech. Jejich využití však vyžaduje pečlivou validaci, protože bez kontextuálního přizpůsobení mohou generovat nepřesné nebo nadbytečné výsledky. Práce zároveň identifikuje směry dalšího rozvoje v oblasti automatizace datové kvality, jako je například systematické testování výstupů LLM na anotovaných datech, zkoumání vlivu kontextualizace vstupů nebo integraci detekčních nástrojů do širších datových ekosystémů. Výsledky této práce tak mohou sloužit jako výchozí bod pro další výzkum i praktické nasazení nástrojů pro efektivní správu dat. |
Keywords: |
automatická detekce; rozšířená datová kvalita; datová kvalita |
Thesis title: |
Automatic Detection of Errors and Anomalies in Data |
Author: |
Martínková, Marie |
Thesis type: |
Bachelor thesis |
Supervisor: |
Pejčoch, David |
Opponents: |
Máša, Petr |
Thesis language: |
Česky |
Abstract: |
The bachelor thesis focuses on the automated detection of data issues, with an emphasis on the use of modern technologies to ensure data quality. The aim of the thesis is to present automation possibilities for identifying common data problems such as missing or invalid values, outliers and anomalies, schema drift, and data drift. The theoretical part defines key concepts, dimensions of data quality, and tasks related to its management, with special attention given to the concept of augmented data quality, which integrates traditional approaches with advanced tools such as machine learning, natural language processing (NLP), and large language models (LLMs). In the practical part, various methods for detecting data issues in a real dataset are proposed and tested. The approaches include rule-based systems, machine learning algorithms, automated profiling tools, and the use of LLMs. The results show that automated detection is both technically feasible and practically beneficial, especially when combining multiple methods. Rule-based approaches provide transparent and easily interpretable outputs, while large language models offer greater flexibility and the ability to capture more complex patterns in data. However, their use requires careful validation, as they may produce inaccurate or redundant results without contextual adaptation. The thesis also identifies directions for further development in the field of data quality automation, such as systematic testing of LLM outputs on annotated data, exploring the impact of input contextualization, or integrating detection tools into broader data ecosystems. The findings of this thesis can serve as a starting point for further research and practical deployment of tools for effective data management. |
Keywords: |
automated detection; augmented data quality; data quality |
Information about study
Study programme: |
Informační média a služby |
Type of study programme: |
Bakalářský studijní program |
Assigned degree: |
Bc. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Informatics and Statistics |
Department: |
Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: |
10. 12. 2024 |
Date of submission: |
26. 6. 2025 |
Date of defense: |
2025 |
Files for download
The files will be available after the defense of the thesis.