Data quality management in Hadoop Ecosystem

Thesis title: Řízení datové kvality v Hadoop Ecosystem
Author: Halama, Jan
Thesis type: Diplomová práce
Supervisor: Pour, Jan
Opponents: Píšová, Vendula
Thesis language: Česky
Abstract:
Tato diplomová práce se zabývá řízením kvality dat v nástrojích Hadoop Ecosystem. Cílem práce je vytvoření prototypu nástroje pro datové validace a monitoring v Threat Intelligence oddělení společnosti zabývající se kybernetickou bezpečností. Práce definuje pojem Big Data, jeho vztah a význam pro společnost řízenou daty a konkrétní Big Data technologii Hadoop. Hadoop je popsán včetně nástrojů Hadoop Ecosystem a jeho architektury. Dále se práce zaměřuje na společnost řízenou daty, její procesy, řízení lidských zdrojů a technologické náležitosti. Práce se poté zaměřuje na konkrétní datové oddělení společnosti, identifikuje jeho procesy, datové zdroje a problém s reportingem. Ten práce řeší vývojem a následnou implementací nástroje pro datovou validaci a monitoring. Nástroj je naprogramován v jazyce Python za pomocí nástroje PySpark, implementován v infrastruktuře společnosti a integrován do komunikačního nástroje Slack. Závěr práce vyhodnocuje efekty validačního nástroje a možnosti budoucího rozvoje.
Keywords: Big Data; PySpark; řízení datové kvality; datová validita; Data Driven Company; Hadoop; Spark
Thesis title: Data quality management in Hadoop Ecosystem
Author: Halama, Jan
Thesis type: Diploma thesis
Supervisor: Pour, Jan
Opponents: Píšová, Vendula
Thesis language: Česky
Abstract:
This diploma thesis focusses on data quality management in Hadoop Ecosystem tools. The aim of this thesis is to create a prototype tool for data validation and monitoring in the Threat Intelligence department of a cyber security company. The thesis defines the concept of Big Data, its relationship and significance for a data-driven company and specific Big Data technology Hadoop. Hadoop is described including Hadoop Ecosystem tools and its architecture. Furthermore, the thesis focuses on a data-driven company, its processes, human resource management and technical prerequisites. Thesis then focuses on a specific data department of the company, identifies its processes, data sources and the problem with reporting. This problem is solved through the development and subsequent implementation of a tool for data validation and monitoring. The tool is programmed in Python using PySpark, implemented in the company's infrastructure and integrated into the Slack. The conclusion evaluates the effects of the validation tool and the possibilities for future development.
Keywords: Spark; PySpark; data quality management; data validity; Data Driven Company; Big Data; Hadoop

Information about study

Study programme: Aplikovaná informatika/Informační systémy a technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 2. 10. 2020
Date of submission: 27. 4. 2021
Date of defense: 31. 5. 2021
Identifier in the InSIS system: https://insis.vse.cz/zp/74474/podrobnosti

Files for download

Main text
Private file
Download
    Last update: