Thesis title: |
Automatická korekce dat v near real-time režimu |
Author: |
Černohorský, Patrik |
Thesis type: |
Bakalářská práce |
Supervisor: |
Pejčoch, David |
Opponents: |
Máša, Petr |
Thesis language: |
Česky |
Abstract: |
Bakalářská práce se zabývá zlepšováním kvality dat při jejich zpracování v téměř reálném čase (near real-time, NRT). V teoretické části práce na základě rešerše vymezuje pojem NRT (latence v řádu milisekund až nižších jednotek sekund) a identifikuje domény, v nichž zpracování v režimu NRT přináší přidanou hodnotu. Dále je kvalita dat charakterizována pomocí sedmi dimenzí: přesnosti, včasnosti, úplnosti, unikátnosti, relevance, platnosti (syntaktické správnosti) a konzistence. Současně jsou popsány klíčové výzvy, které naplňování těchto dimenzí v prostředí NRT komplikují. V praktické části byla navržena a implementována NRT pipeline postavená na nástrojích Kafka a Flink 1.20 (PyFlink), jež sloužila jako základ pro dva prototypy automatizované korekce dat z tepelných čerpadel. První prototyp prokazatelně zvýšil přesnost a úplnost dat a dodržel průměrnou hranici end-to-end zpoždění stanovenou při vymezení pojetí NRT. Druhý, experimentální prototyp, založený na modelování nepřesnosti s využitím dalších senzorů tepelného čerpadla, potvrdil, že i složitější model lze provozovat v požadovaných mezích, byť s nižším dopadem na přesnost. Výsledky demonstrují, že dobře navržená architektura a cílené korekční mechanismy mohou při NRT zpracování dat výrazně zvýšit jejich kvalitu, aniž by porušily požadavky na zpoždění. Práce zároveň identifikuje směry dalšího rozvoje, zejména zefektivnění zpracování v rámci Flink Jobu, pokročilejší předzpracování a případný přechod na implementaci frameworku Flink v Javě pro dosažení latence v řádu desítek milisekund. |
Keywords: |
Near real-time; Stream; Korekce dat; Datová kvalita |
Thesis title: |
Automated data correction in near real-time processing (NRT) |
Author: |
Černohorský, Patrik |
Thesis type: |
Bachelor thesis |
Supervisor: |
Pejčoch, David |
Opponents: |
Máša, Petr |
Thesis language: |
Česky |
Abstract: |
The bachelor thesis deals with the improvement of data quality in near real-time (NRT) processing. In the theoretical part of the thesis, based on a research, it defines the concept of NRT (latency in the order of milliseconds to lower units of seconds) and identifies domains where NRT processing brings added value. Furthermore, data quality is characterized using seven dimensions: accuracy, timeliness, completeness, uniqueness, relevance, validity (syntactic correctness) and consistency. At the same time, key challenges that complicate the fulfilment of these dimensions in an NRT environment are described. In the practical part, an NRT pipeline built on Kafka and Flink 1.20 (PyFlink) tools was designed and implemented as the basis for two prototypes of automated heat pump data correction. The first prototype was shown to increase data accuracy and completeness and to meet the average end-to-end delay limit set when defining the NRT concept. The second, experimental prototype, based on inaccuracy modelling using additional heat pump sensors, confirmed that even a more complex model can be operated within the required limits, albeit with a lower impact on accuracy. The results demonstrate that a well-designed architecture and targeted correction mechanisms can significantly improve data quality in NRT processing without violating the delay requirements. The work also identifies directions for further development, in particular streamlining processing within Flink Job, more advanced preprocessing, and a possible transition to a Java-based Flink implementation to achieve latencies on the order of tens of milliseconds. |
Keywords: |
Data Quality; Data correction; Stream; Near real-time |
Information about study
Study programme: |
Aplikovaná informatika |
Type of study programme: |
Bakalářský studijní program |
Assigned degree: |
Bc. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Informatics and Statistics |
Department: |
Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: |
12. 12. 2024 |
Date of submission: |
12. 5. 2025 |
Date of defense: |
2025 |
Files for download
The files will be available after the defense of the thesis.