Integration of Big Data and data warehouse

Thesis title: Integrace Big Data a datového skladu
Author: Kiška, Vladislav
Thesis type: Diplomová práce
Supervisor: Novotný, Ota
Opponents: Kerol, Valeria
Thesis language: Česky
Abstract:
Diplomová práce se zabývá problémem datové integrace Big Data platformy a podnikového datového skladu. Hlavním cílem je vytvoření přenosového systému, který pomocí vhodně zvoleného nástroje bude přenášet data z datového skladu na tuto platformu a bude udržovat informace o všech realizovaných přenosech. V teoretické části se práce soustředí na představení pojmu Big Data, stručný vývoj těchto technologií a faktory, které vedly k potřebě těchto technologií. Dále jsou představeny hlavní principy a vlastnosti těchto technologií a přínos jejich implementace do podniku. Práce popisuje také nástroje a přístupy označované jako Business Intelligence, jejich typické použití v podniku a jejich vztah k technologiím Big Data. Dílčí podkapitola se také věnuje systému Hadoop a nejpopulárnějším technologiím, které s ním souvisí. Praktická část se věnuje konkrétní vzorové implementaci tohoto aparátu, který bude realizovat přenosy z klasické relační databáze, představující datový sklad, do clusteru několika počítačů provozujících systém Hadoop. Součástí praktické části je také přehled několika možných nástrojů, které se aktuálně používají pro nahrávání dat do Hadoopu a návrh databázového schématu metadat, které bude sloužit k řízení celého systému a udržování informací o proběhlých přenosech.
Keywords: datová integrace; Business Intelligence; Big Data; Sqoop; Hadoop; datové sklady
Thesis title: Integration of Big Data and data warehouse
Author: Kiška, Vladislav
Thesis type: Diploma thesis
Supervisor: Novotný, Ota
Opponents: Kerol, Valeria
Thesis language: Česky
Abstract:
Master thesis deals with a problem of data integration between Big Data platform and enterprise data warehouse. Main goal of this thesis is to create a complex transfer system to move data from a data warehouse to this platform using a suitable tool for this task. This system should also store and manage all metadata information about previous transfers. Theoretical part focuses on describing concepts of Big Data, brief introduction into their history and presents factors which led to need for this new approach. Next chapters describe main principles and attributes of these technologies and discuss benefits of their implementation within an enterprise. Thesis also describes technologies known as Business Intelligence, their typical use cases and their relation to Big Data. Minor chapter presents main components of Hadoop system and most popular related applications. Practical part of this work consists of implementation of a system to execute and manage transfers from traditional relation database, in this case representing a data warehouse, to cluster of a few computers running a Hadoop system. This part also includes a summary of most used applications to move data into Hadoop and a design of database metadata schema, which is used to manage these transfers and to store transfer metadata.
Keywords: data integration; data warehouse; Sqoop; Hadoop; Business Intelligence; Big Data

Information about study

Study programme: Aplikovaná informatika/Podniková informatika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 30. 5. 2016
Date of submission: 1. 5. 2017
Date of defense: 7. 6. 2017
Identifier in the InSIS system: https://insis.vse.cz/zp/57840/podrobnosti

Files for download

    Last update: