Bakalářská práce se zabývá zlepšováním kvality dat při jejich zpracování v téměř reálném čase (near real-time, NRT). V teoretické části práce na základě rešerše vymezuje pojem NRT (latence v řádu milisekund až nižších jednotek sekund) a identifikuje domény, v nichž zpracování v režimu NRT přináší přidanou hodnotu. Dále je kvalita dat charakterizována pomocí sedmi dimenzí: přesnosti, včasnosti, úplnosti, unikátnosti, relevance, platnosti (syntaktické správnosti) a konzistence. Současně jsou popsány klíčové výzvy, které naplňování těchto dimenzí v prostředí NRT komplikují. V praktické části byla navržena a implementována NRT pipeline postavená na nástrojích Kafka a Flink 1.20 (PyFlink), jež sloužila jako základ pro dva prototypy automatizované korekce dat z tepelných čerpadel. První prototyp prokazatelně zvýšil přesnost a úplnost dat a dodržel průměrnou hranici end-to-end zpoždění stanovenou při vymezení pojetí NRT. Druhý, experimentální prototyp, založený na modelování nepřesnosti s využitím dalších senzorů tepelného čerpadla, potvrdil, že i složitější model lze provozovat v požadovaných mezích, byť s nižším dopadem na přesnost. Výsledky demonstrují, že dobře navržená architektura a cílené korekční mechanismy mohou při NRT zpracování dat výrazně zvýšit jejich kvalitu, aniž by porušily požadavky na zpoždění. Práce zároveň identifikuje směry dalšího rozvoje, zejména zefektivnění zpracování v rámci Flink Jobu, pokročilejší předzpracování a případný přechod na implementaci frameworku Flink v Javě pro dosažení latence v řádu desítek milisekund.
Klíčová slova:
Near real-time; Stream; Korekce dat; Datová kvalita
Název práce:
Automated data correction in near real-time processing (NRT)
Autor(ka) práce:
Černohorský, Patrik
Typ práce:
Bachelor thesis
Vedoucí práce:
Pejčoch, David
Oponenti práce:
Máša, Petr
Jazyk práce:
Česky
Abstrakt:
The bachelor thesis deals with the improvement of data quality in near real-time (NRT) processing. In the theoretical part of the thesis, based on a research, it defines the concept of NRT (latency in the order of milliseconds to lower units of seconds) and identifies domains where NRT processing brings added value. Furthermore, data quality is characterized using seven dimensions: accuracy, timeliness, completeness, uniqueness, relevance, validity (syntactic correctness) and consistency. At the same time, key challenges that complicate the fulfilment of these dimensions in an NRT environment are described. In the practical part, an NRT pipeline built on Kafka and Flink 1.20 (PyFlink) tools was designed and implemented as the basis for two prototypes of automated heat pump data correction. The first prototype was shown to increase data accuracy and completeness and to meet the average end-to-end delay limit set when defining the NRT concept. The second, experimental prototype, based on inaccuracy modelling using additional heat pump sensors, confirmed that even a more complex model can be operated within the required limits, albeit with a lower impact on accuracy. The results demonstrate that a well-designed architecture and targeted correction mechanisms can significantly improve data quality in NRT processing without violating the delay requirements. The work also identifies directions for further development, in particular streamlining processing within Flink Job, more advanced preprocessing, and a possible transition to a Java-based Flink implementation to achieve latencies on the order of tens of milliseconds.
Klíčová slova:
Data Quality; Data correction; Stream; Near real-time