Improving Data Quality in a Data Warehouse

Thesis title: Zlepšování datové kvality v datovém skladu
Author: Do, Ha Son
Thesis type: Diplomová práce
Supervisor: Novotný, Ota
Opponents: Maryška, Miloš
Thesis language: Česky
Abstract:
Tato diplomová práce se zaměřuje na návrh a implementaci řešení skenování a analýzu logů zpracování dat v datových skladech. Hlavním cílem práce je navrhnout řešení, které umožní rychlejší a přesnější identifikaci chyb a problémů při zpracování dat, včetně těch, které stávající přístupy nedokážou zachytit. V první části práce je představena historie banky, informace o využívaných technologiích, popis fungování celého prostředí a přehled nástrojů, které banka využívá. V dalších částech je provedena analýza současného stavu procesu skenování a následně návrh samotného řešení a jeho implementace. Následuje testování navrženého systému. V závěrečné kapitole jsou shrnuty přínosy implementovaného řešení.
Keywords: ETL; datová kvalita; Python; Datové sklady
Thesis title: Improving Data Quality in a Data Warehouse
Author: Do, Ha Son
Thesis type: Diploma thesis
Supervisor: Novotný, Ota
Opponents: Maryška, Miloš
Thesis language: Česky
Abstract:
This thesis addresses the design and implementation of a solution for scanning and analysis of data processing logs within data warehouse environment. The primary objective is to develop a system that facilitates more efficient and accurate identification of errors and issues encountered during data processing—particularly those that current methods fail to detect. The introductory section provides an overview of the bank's history, the technologies in use, a description of the operational environment, and a review of the tools employed within the organization. Subsequent chapters present an analysis of the current state of the log scanning process, followed by the design and implementation of the proposed solution. This is complemented by a series of tests evaluating the performance and effectiveness of the system. The concluding chapter summarizes the key benefits and contributions of the implemented solution.
Keywords: ETL; data quality; Python; Data Warehouse

Information about study

Study programme: Data a analytika pro business
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 20. 9. 2024
Date of submission: 5. 5. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: