Apache Hadoop jako analytická platforma
Název práce: | Apache Hadoop jako analytická platforma |
---|---|
Autor(ka) práce: | Brotánek, Jan |
Typ práce: | Diplomová práce |
Vedoucí práce: | Novotný, Ota |
Oponenti práce: | Kerol, Valeria |
Jazyk práce: | Česky |
Abstrakt: | Diplomová práce se zabývá použitím platformy Hadoop při zpracování velkého objemu dat a
její integrací do stávající architektury datového skladu. V teoretické části jsou popsány
vlastnosti Big Data, charakteristiky jejich metod a výpočetních modelů. Podrobně je popsán
framework Hadoop, jeho komponenty a distribuce, v níž jsou dodávány. Jsou popsány
komponenty frameworku, které umožňují použití frameworku Hadoop a přístup do clusteru
uživatelům, vývojářům a analytikům.
V praktické části práce je realizována případová studie ELT procesu dávkové extrakce dat
nástrojem Sqoop ze stávajícího datového skladu na platformě Oracle, jejich transformace
v relačních strukturách komponenty Hive a následné dohrání dat zpět do datového skladu.
Pozornost je věnována způsobu uložení dat, jejich kompresi a souborovému formátu a rychlosti
vykonání dotazů nad nimi. V průběhu procesu jsou data porovnávána vůči zdroji a tím zajištěna
jejich kvalita. Část praktické práce je věnována problematice tokových dat. Jejich ukládání a
zpracování je demonstrováno v nástrojích Flume a Pig
Cílem práce je přesunutí části dat a výpočtů nad nimi realizovaných ze stávajícího datového
skladu do prostředí Hadoop. Za tímto účelem byl navržen proces integrace stávajícího datového
skladu s komponentami distribuce Hortonworks Data Platform. |
Klíčová slova: | Pig; Big Data; HDP; Hortonworks Data Platform; HDFS; Hive ; Microstrategy; Business Intelligence; Hadoop; Oracle; Ambari; NiFi; Flume; ELT; Sqoop |
Název práce: | Apache Hadoop as analytics platform |
---|---|
Autor(ka) práce: | Brotánek, Jan |
Typ práce: | Diploma thesis |
Vedoucí práce: | Novotný, Ota |
Oponenti práce: | Kerol, Valeria |
Jazyk práce: | Česky |
Abstrakt: | Diploma Thesis focuses on integrating Hadoop platform into current data warehouse architecture. In theoretical part, properties of Big Data are described together with their methods and processing models. Hadoop framework, its components and distributions are discussed. Moreover, compoments which enables end users, developers and analytics to access Hadoop cluster are described.
Case study of batch data extraction from current data warehouse on Oracle platform with aid of Sqoop tool, their transformation in relational structures of Hive component and uploading them back to the original source is being discussed at practical part of thesis. Compression of data and efficiency of queries depending on various storage formats is also discussed. Quality and consistency of manipulated data is checked during all phases of the process. Fraction of practical part discusses ways of storing and capturing stream data. For this purposes tool Flume is used to capture stream data. Further this data are transformed in Pig tool.
Purpose of implementing the process is to move part of data and its processing from current data warehouse to Hadoop cluster. Therefore process of integration of current data warehouse and Hortonworks Data Platform and its components, was designed |
Klíčová slova: | Microstrategy; Oracle; Pig; Hive; HDFS; Ambari; HDP; Hortonworks Data Platform; NiFi; Sqoop; Business Intelligence; Hadoop; Big Data; ELT; Flume |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Informační systémy a technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
Datum zadání práce: | 26. 10. 2016 |
---|---|
Datum podání práce: | 1. 5. 2017 |
Datum obhajoby: | 5. 6. 2017 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/59423/podrobnosti |