Hadoop: HDFS, MapReduce and cmputing in IBM BigInsights
Thesis title: | Hadoop: HDFS, MapReduce a výpočty v IBM BigInsights |
---|---|
Author: | Fessl, Adam |
Thesis type: | Bakalářská práce |
Supervisor: | Řezáč, Miroslav |
Opponents: | Novotný, Ota |
Thesis language: | Česky |
Abstract: | Práce spadá do oblasti zpracování dat velkého rozsahu. Věnuje se Hadoopu, open-source nástroji pro distribuované zpracování a ukládání dat. Cílem práce je poskytnutí teoretických znalostí a objasnění základních principů v problema-tice Apache Hadoop. Zejména se jedná o souborový systém HDFS a model pro distribuo-vané výpočty MapReduce. Teoretické znalosti a principy jsou demonstrovány na modifiko-vané aplikaci WordCount v prostředí IBM InfoSphere BigInsights. Text je rozdělen do tří částí, přičemž první část se věnuje Hadoopu a jeho základním modu-lům, druhá část poskytuje informace o předních distributorech Hadoopu a detailně se věnu-je distribuci společnosti IBM. Část poslední je věnovaná praktickým výpočtům. Přínosem práce je ucelený pohled na Hadoop, který slučuje pohled technologický s pohle-dem praktického využití. Nový pohled je demonstrován na příkladech a doplněn způsoby, jakým lze s tímto nástrojem pracovat. |
Keywords: | Distribuované výpočty; IBM InfoSphere BigInsights; MapReduce; HDFS; Hadoop; WordCount; Java; BigData |
Thesis title: | Hadoop: HDFS, MapReduce and cmputing in IBM BigInsights |
---|---|
Author: | Fessl, Adam |
Thesis type: | Bachelor thesis |
Supervisor: | Řezáč, Miroslav |
Opponents: | Novotný, Ota |
Thesis language: | Česky |
Abstract: | This undergraduate thesis thematically appertains to the field of Big Data. Particularly, it concerns Hadoop, an open-source tool, serving for distributed processing and saving data. The object of this thesis is to provide the reader with theoretical knowledge and basic prin-ciples concerning the Apache Hadoop with concentration on the file system HDFS and model for distributed MapReduce computing. Theoretical knowledge and principles are illustrated on modified application WordCount in IBM InfoSphereBigInsights. This work consists of three parts. First part is dealing with Hadoop and its basic modules. Second one provides information concerning the prominent Hadoop distributors; special attention is given to IBM. The last part presents practical computing. This thesis offers a comprehensive view on Hadoop, which combines technical point of view with practical application. Both of them are illustrated on particular examples and supplemented with methods to operate Hadoop. |
Keywords: | Distributed computing; Java; BigData; WordCount; IBM InfoSphere BigInsights; MapReduce; HDFS; Hadoop |
Information about study
Study programme: | Aplikovaná informatika/Informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information Technologies |
Information on submission and defense
Date of assignment: | 6. 1. 2014 |
---|---|
Date of submission: | 30. 4. 2014 |
Date of defense: | 18. 6. 2014 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/46528/podrobnosti |