Řízení datové kvality v Hadoop Ecosystem

Název práce: Řízení datové kvality v Hadoop Ecosystem
Autor(ka) práce: Halama, Jan
Typ práce: Diplomová práce
Vedoucí práce: Pour, Jan
Oponenti práce: Píšová, Vendula
Jazyk práce: Česky
Abstrakt:
Tato diplomová práce se zabývá řízením kvality dat v nástrojích Hadoop Ecosystem. Cílem práce je vytvoření prototypu nástroje pro datové validace a monitoring v Threat Intelligence oddělení společnosti zabývající se kybernetickou bezpečností. Práce definuje pojem Big Data, jeho vztah a význam pro společnost řízenou daty a konkrétní Big Data technologii Hadoop. Hadoop je popsán včetně nástrojů Hadoop Ecosystem a jeho architektury. Dále se práce zaměřuje na společnost řízenou daty, její procesy, řízení lidských zdrojů a technologické náležitosti. Práce se poté zaměřuje na konkrétní datové oddělení společnosti, identifikuje jeho procesy, datové zdroje a problém s reportingem. Ten práce řeší vývojem a následnou implementací nástroje pro datovou validaci a monitoring. Nástroj je naprogramován v jazyce Python za pomocí nástroje PySpark, implementován v infrastruktuře společnosti a integrován do komunikačního nástroje Slack. Závěr práce vyhodnocuje efekty validačního nástroje a možnosti budoucího rozvoje.
Klíčová slova: Big Data; PySpark; řízení datové kvality; datová validita; Data Driven Company; Hadoop; Spark
Název práce: Data quality management in Hadoop Ecosystem
Autor(ka) práce: Halama, Jan
Typ práce: Diploma thesis
Vedoucí práce: Pour, Jan
Oponenti práce: Píšová, Vendula
Jazyk práce: Česky
Abstrakt:
This diploma thesis focusses on data quality management in Hadoop Ecosystem tools. The aim of this thesis is to create a prototype tool for data validation and monitoring in the Threat Intelligence department of a cyber security company. The thesis defines the concept of Big Data, its relationship and significance for a data-driven company and specific Big Data technology Hadoop. Hadoop is described including Hadoop Ecosystem tools and its architecture. Furthermore, the thesis focuses on a data-driven company, its processes, human resource management and technical prerequisites. Thesis then focuses on a specific data department of the company, identifies its processes, data sources and the problem with reporting. This problem is solved through the development and subsequent implementation of a tool for data validation and monitoring. The tool is programmed in Python using PySpark, implemented in the company's infrastructure and integrated into the Slack. The conclusion evaluates the effects of the validation tool and the possibilities for future development.
Klíčová slova: Spark; PySpark; data quality management; data validity; Data Driven Company; Big Data; Hadoop

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační systémy a technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 2. 10. 2020
Datum podání práce: 27. 4. 2021
Datum obhajoby: 31. 5. 2021
Identifikátor v systému InSIS: https://insis.vse.cz/zp/74474/podrobnosti

Soubory ke stažení

Hlavní práce
Neveřejný soubor
Stáhnout
    Poslední aktualizace: