Data Quality in a Streaming Data Environment

Thesis title: Dátová kvalita v prostredí streamovaných dát
Author: Malček, Ivan
Thesis type: Diploma thesis
Supervisor: Sládek, Pavel
Opponents: Maryška, Miloš
Thesis language: Slovensky
Abstract:
Práca sa zaoberá tematikou metód a konfigurácií dosahovania vysokej kvality dát v prostredí nepretržitých (streamovaných) dátových tokov. V rámci práce je vypracovaný teoretický rámec obecnej kvality dát a nepretržitého dátového prenosu spolu so vzájomným prepojením oboch konceptov. Na otázku, aké sú metódy a konfigurácie na dosahovanie vysokej kvality dát v tomto špecifickom prostredí, bola vypracovaná rešerš literatúry vo vedeckých knižniciach a na odborných webových stránkach. Na overenie konfigurácií bolo vytvorené testovacie lokálne prostredie, v ktorom bolo pomocou nástroja Apache Kafka simulované použitie komponentu Kafka broker. V praktickej časti sa následne podarilo overiť a navrhnúť vhodnú konfiguráciu pre základné scenáre s ktorými sa je možné stretnúť v praxi.
Keywords: replikácie; konzument; Dátová kvalita; data streaming; Apache Kafka; Kafka broker; producent
Thesis title: Datová kvalita v prostředí streamovaných dat
Author: Malček, Ivan
Thesis type: Diplomová práce
Supervisor: Sládek, Pavel
Opponents: Maryška, Miloš
Thesis language: Slovensky
Abstract:
Tato práce se zabývá tématem metod a konfigurací pro dosažení vysoké kvality dat v prostředí nepřetržitých (streamovaných) datových toků. V rámci práce byl vypracován teoretický rámec obecné kvality dat a nepřetržitého datového přenosu spolu s jejich vzájemným propojením. Na otázku, jaké existují metody a konfigurace pro dosažení vysoké kvality dat v tomto specifickém prostředí, byla provedena rešerše literatury ve vědeckých knihovnách a na odborných webových stránkách. Pro ověření konfigurací bylo vytvořeno testovací lokální prostředí, ve kterém bylo pomocí nástroje Apache Kafka simulováno použití komponenty Kafka broker. V praktické části se následně podařilo ověřit a navrhnout vhodnou konfiguraci pro základní scénáře, se kterými se lze v praxi setkat.
Keywords: Konzument; Producent; Kafka broker; Replikace; Datová kvalita; Streamování dat; Apache Kafka
Thesis title: Data Quality in a Streaming Data Environment
Author: Malček, Ivan
Thesis type: Diploma thesis
Supervisor: Sládek, Pavel
Opponents: Maryška, Miloš
Thesis language: Slovensky
Abstract:
The thesis deals with the topic of methods and configurations for achieving high data quality in a continuous (streaming) data flow environment. A theoretical framework of general data quality and continuous data streaming is developed along with the interrelation of the two concepts. To address the question of what methods and configurations ensure high-quality data in data streaming, a literature review was conducted using scientific libraries and professional web sources. The verification process involved testing in a local environment using the Apache Kafka tool, where data streaming was simulated via a Kafka broker. In the practical section, a suitable configuration was successfully verified and proposed for fundamental scenarios that may be encountered in practice.
Keywords: Data quality; data streaming; Apache Kafka; Kafka broker; producer; consumer; replication

Information about study

Study programme: Podniková informatika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 21. 3. 2024
Date of submission: 4. 5. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: