Práca sa zaoberá tematikou metód a konfigurácií dosahovania vysokej kvality dát v prostredí nepretržitých (streamovaných) dátových tokov. V rámci práce je vypracovaný teoretický rámec obecnej kvality dát a nepretržitého dátového prenosu spolu so vzájomným prepojením oboch konceptov. Na otázku, aké sú metódy a konfigurácie na dosahovanie vysokej kvality dát v tomto špecifickom prostredí, bola vypracovaná rešerš literatúry vo vedeckých knižniciach a na odborných webových stránkach. Na overenie konfigurácií bolo vytvorené testovacie lokálne prostredie, v ktorom bolo pomocou nástroja Apache Kafka simulované použitie komponentu Kafka broker. V praktickej časti sa následne podarilo overiť a navrhnúť vhodnú konfiguráciu pre základné scenáre s ktorými sa je možné stretnúť v praxi.
Klíčová slova:
replikácie; konzument; Dátová kvalita; data streaming; Apache Kafka; Kafka broker; producent
Název práce:
Datová kvalita v prostředí streamovaných dat
Autor(ka) práce:
Malček, Ivan
Typ práce:
Diplomová práce
Vedoucí práce:
Sládek, Pavel
Oponenti práce:
Maryška, Miloš
Jazyk práce:
Slovensky
Abstrakt:
Tato práce se zabývá tématem metod a konfigurací pro dosažení vysoké kvality dat v prostředí nepřetržitých (streamovaných) datových toků. V rámci práce byl vypracován teoretický rámec obecné kvality dat a nepřetržitého datového přenosu spolu s jejich vzájemným propojením. Na otázku, jaké existují metody a konfigurace pro dosažení vysoké kvality dat v tomto specifickém prostředí, byla provedena rešerše literatury ve vědeckých knihovnách a na odborných webových stránkách. Pro ověření konfigurací bylo vytvořeno testovací lokální prostředí, ve kterém bylo pomocí nástroje Apache Kafka simulováno použití komponenty Kafka broker. V praktické části se následně podařilo ověřit a navrhnout vhodnou konfiguraci pro základní scénáře, se kterými se lze v praxi setkat.
The thesis deals with the topic of methods and configurations for achieving high data quality in a continuous (streaming) data flow environment. A theoretical framework of general data quality and continuous data streaming is developed along with the interrelation of the two concepts. To address the question of what methods and configurations ensure high-quality data in data streaming, a literature review was conducted using scientific libraries and professional web sources. The verification process involved testing in a local environment using the Apache Kafka tool, where data streaming was simulated via a Kafka broker. In the practical section, a suitable configuration was successfully verified and proposed for fundamental scenarios that may be encountered in practice.
Klíčová slova:
Data quality; data streaming; Apache Kafka; Kafka broker; producer; consumer; replication