Automatická detekce chyb a anomálií v datech

Název práce: Automatická detekce chyb a anomálií v datech
Autor(ka) práce: Martínková, Marie
Typ práce: Bakalářská práce
Vedoucí práce: Pejčoch, David
Oponenti práce: Máša, Petr
Jazyk práce: Česky
Abstrakt:
Bakalářská práce se zabývá automatickou detekcí problémů v datech s důrazem na využití moderních technologií pro zajištění datové kvality. Cílem práce je představit možnosti automatizace při identifikaci typických problémů v datech, jako jsou chybějící nebo nevalidní hodnoty, odlehlé hodnoty a anomálie, schema drift a data drift. Teoretická část vymezuje klíčové pojmy, dimenze datové kvality a úlohy spojené s jejím řízením, přičemž zvláštní pozornost je věnována konceptu rozšířené datové kvality, který propojuje tradiční přístupy s pokročilými nástroji, jako jsou strojové učení, zpracování přirozeného jazyka a velké jazykové modely (LLM). V praktické části jsou navrženy a otestovány různé metody detekce problémů v reálném datovém souboru. Použité přístupy zahrnují pravidlové systémy, algoritmy strojového učení, nástroje pro automatickou profilaci a využití LLM. Výsledky ukazují, že automatizovaná detekce je technicky proveditelná a prakticky přínosná, zejména při kombinaci více metod. Pravidlové přístupy poskytují transparentní a snadno interpretovatelné výstupy, zatímco velké jazykové modely nabízejí vyšší flexibilitu a schopnost zachytit složitější vzory v datech. Jejich využití však vyžaduje pečlivou validaci, protože bez kontextuálního přizpůsobení mohou generovat nepřesné nebo nadbytečné výsledky. Práce zároveň identifikuje směry dalšího rozvoje v oblasti automatizace datové kvality, jako je například systematické testování výstupů LLM na anotovaných datech, zkoumání vlivu kontextualizace vstupů nebo integraci detekčních nástrojů do širších datových ekosystémů. Výsledky této práce tak mohou sloužit jako výchozí bod pro další výzkum i praktické nasazení nástrojů pro efektivní správu dat.
Klíčová slova: automatická detekce; rozšířená datová kvalita; datová kvalita
Název práce: Automatic Detection of Errors and Anomalies in Data
Autor(ka) práce: Martínková, Marie
Typ práce: Bachelor thesis
Vedoucí práce: Pejčoch, David
Oponenti práce: Máša, Petr
Jazyk práce: Česky
Abstrakt:
The bachelor thesis focuses on the automated detection of data issues, with an emphasis on the use of modern technologies to ensure data quality. The aim of the thesis is to present automation possibilities for identifying common data problems such as missing or invalid values, outliers and anomalies, schema drift, and data drift. The theoretical part defines key concepts, dimensions of data quality, and tasks related to its management, with special attention given to the concept of augmented data quality, which integrates traditional approaches with advanced tools such as machine learning, natural language processing (NLP), and large language models (LLMs). In the practical part, various methods for detecting data issues in a real dataset are proposed and tested. The approaches include rule-based systems, machine learning algorithms, automated profiling tools, and the use of LLMs. The results show that automated detection is both technically feasible and practically beneficial, especially when combining multiple methods. Rule-based approaches provide transparent and easily interpretable outputs, while large language models offer greater flexibility and the ability to capture more complex patterns in data. However, their use requires careful validation, as they may produce inaccurate or redundant results without contextual adaptation. The thesis also identifies directions for further development in the field of data quality automation, such as systematic testing of LLM outputs on annotated data, exploring the impact of input contextualization, or integrating detection tools into broader data ecosystems. The findings of this thesis can serve as a starting point for further research and practical deployment of tools for effective data management.
Klíčová slova: automated detection; augmented data quality; data quality

Informace o studiu

Studijní program / obor: Informační média a služby
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 10. 12. 2024
Datum podání práce: 26. 6. 2025
Datum obhajoby: 2025

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: