Tato diplomová práce se zaměřuje na návrh a implementaci řešení skenování a analýzu logů zpracování dat v datových skladech. Hlavním cílem práce je navrhnout řešení, které umožní rychlejší a přesnější identifikaci chyb a problémů při zpracování dat, včetně těch, které stávající přístupy nedokážou zachytit. V první části práce je představena historie banky, informace o využívaných technologiích, popis fungování celého prostředí a přehled nástrojů, které banka využívá. V dalších částech je provedena analýza současného stavu procesu skenování a následně návrh samotného řešení a jeho implementace. Následuje testování navrženého systému. V závěrečné kapitole jsou shrnuty přínosy implementovaného řešení.
Klíčová slova:
ETL; datová kvalita; Python; Datové sklady
Název práce:
Improving Data Quality in a Data Warehouse
Autor(ka) práce:
Do, Ha Son
Typ práce:
Diploma thesis
Vedoucí práce:
Novotný, Ota
Oponenti práce:
Maryška, Miloš
Jazyk práce:
Česky
Abstrakt:
This thesis addresses the design and implementation of a solution for scanning and analysis of data processing logs within data warehouse environment. The primary objective is to develop a system that facilitates more efficient and accurate identification of errors and issues encountered during data processing—particularly those that current methods fail to detect. The introductory section provides an overview of the bank's history, the technologies in use, a description of the operational environment, and a review of the tools employed within the organization. Subsequent chapters present an analysis of the current state of the log scanning process, followed by the design and implementation of the proposed solution. This is complemented by a series of tests evaluating the performance and effectiveness of the system. The concluding chapter summarizes the key benefits and contributions of the implemented solution.