Hadoop: HDFS, MapReduce and cmputing in IBM BigInsights

Thesis title: Hadoop: HDFS, MapReduce a výpočty v IBM BigInsights
Author: Fessl, Adam
Thesis type: Bakalářská práce
Supervisor: Řezáč, Miroslav
Opponents: Novotný, Ota
Thesis language: Česky
Abstract:
Práce spadá do oblasti zpracování dat velkého rozsahu. Věnuje se Hadoopu, open-source nástroji pro distribuované zpracování a ukládání dat. Cílem práce je poskytnutí teoretických znalostí a objasnění základních principů v problema-tice Apache Hadoop. Zejména se jedná o souborový systém HDFS a model pro distribuo-vané výpočty MapReduce. Teoretické znalosti a principy jsou demonstrovány na modifiko-vané aplikaci WordCount v prostředí IBM InfoSphere BigInsights. Text je rozdělen do tří částí, přičemž první část se věnuje Hadoopu a jeho základním modu-lům, druhá část poskytuje informace o předních distributorech Hadoopu a detailně se věnu-je distribuci společnosti IBM. Část poslední je věnovaná praktickým výpočtům. Přínosem práce je ucelený pohled na Hadoop, který slučuje pohled technologický s pohle-dem praktického využití. Nový pohled je demonstrován na příkladech a doplněn způsoby, jakým lze s tímto nástrojem pracovat.
Keywords: Distribuované výpočty; IBM InfoSphere BigInsights; MapReduce; HDFS; Hadoop; WordCount; Java; BigData
Thesis title: Hadoop: HDFS, MapReduce and cmputing in IBM BigInsights
Author: Fessl, Adam
Thesis type: Bachelor thesis
Supervisor: Řezáč, Miroslav
Opponents: Novotný, Ota
Thesis language: Česky
Abstract:
This undergraduate thesis thematically appertains to the field of Big Data. Particularly, it concerns Hadoop, an open-source tool, serving for distributed processing and saving data. The object of this thesis is to provide the reader with theoretical knowledge and basic prin-ciples concerning the Apache Hadoop with concentration on the file system HDFS and model for distributed MapReduce computing. Theoretical knowledge and principles are illustrated on modified application WordCount in IBM InfoSphereBigInsights. This work consists of three parts. First part is dealing with Hadoop and its basic modules. Second one provides information concerning the prominent Hadoop distributors; special attention is given to IBM. The last part presents practical computing. This thesis offers a comprehensive view on Hadoop, which combines technical point of view with practical application. Both of them are illustrated on particular examples and supplemented with methods to operate Hadoop.
Keywords: Distributed computing; Java; BigData; WordCount; IBM InfoSphere BigInsights; MapReduce; HDFS; Hadoop

Information about study

Study programme: Aplikovaná informatika/Informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 6. 1. 2014
Date of submission: 30. 4. 2014
Date of defense: 18. 6. 2014
Identifier in the InSIS system: https://insis.vse.cz/zp/46528/podrobnosti

Files for download

    Last update: