Hadoop: HDFS, MapReduce a výpočty v IBM BigInsights

Název práce: Hadoop: HDFS, MapReduce a výpočty v IBM BigInsights
Autor(ka) práce: Fessl, Adam
Typ práce: Bakalářská práce
Vedoucí práce: Řezáč, Miroslav
Oponenti práce: Novotný, Ota
Jazyk práce: Česky
Abstrakt:
Práce spadá do oblasti zpracování dat velkého rozsahu. Věnuje se Hadoopu, open-source nástroji pro distribuované zpracování a ukládání dat. Cílem práce je poskytnutí teoretických znalostí a objasnění základních principů v problema-tice Apache Hadoop. Zejména se jedná o souborový systém HDFS a model pro distribuo-vané výpočty MapReduce. Teoretické znalosti a principy jsou demonstrovány na modifiko-vané aplikaci WordCount v prostředí IBM InfoSphere BigInsights. Text je rozdělen do tří částí, přičemž první část se věnuje Hadoopu a jeho základním modu-lům, druhá část poskytuje informace o předních distributorech Hadoopu a detailně se věnu-je distribuci společnosti IBM. Část poslední je věnovaná praktickým výpočtům. Přínosem práce je ucelený pohled na Hadoop, který slučuje pohled technologický s pohle-dem praktického využití. Nový pohled je demonstrován na příkladech a doplněn způsoby, jakým lze s tímto nástrojem pracovat.
Klíčová slova: Distribuované výpočty; IBM InfoSphere BigInsights; MapReduce; HDFS; Hadoop; WordCount; Java; BigData
Název práce: Hadoop: HDFS, MapReduce and cmputing in IBM BigInsights
Autor(ka) práce: Fessl, Adam
Typ práce: Bachelor thesis
Vedoucí práce: Řezáč, Miroslav
Oponenti práce: Novotný, Ota
Jazyk práce: Česky
Abstrakt:
This undergraduate thesis thematically appertains to the field of Big Data. Particularly, it concerns Hadoop, an open-source tool, serving for distributed processing and saving data. The object of this thesis is to provide the reader with theoretical knowledge and basic prin-ciples concerning the Apache Hadoop with concentration on the file system HDFS and model for distributed MapReduce computing. Theoretical knowledge and principles are illustrated on modified application WordCount in IBM InfoSphereBigInsights. This work consists of three parts. First part is dealing with Hadoop and its basic modules. Second one provides information concerning the prominent Hadoop distributors; special attention is given to IBM. The last part presents practical computing. This thesis offers a comprehensive view on Hadoop, which combines technical point of view with practical application. Both of them are illustrated on particular examples and supplemented with methods to operate Hadoop.
Klíčová slova: Distributed computing; Java; BigData; WordCount; IBM InfoSphere BigInsights; MapReduce; HDFS; Hadoop

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 6. 1. 2014
Datum podání práce: 30. 4. 2014
Datum obhajoby: 18. 6. 2014
Identifikátor v systému InSIS: https://insis.vse.cz/zp/46528/podrobnosti

Soubory ke stažení

    Poslední aktualizace: