Machine learning in the field of Big Data

Thesis title: Strojové učení v oblasti Big Data
Author: Šimánek, Michal
Thesis type: Bakalářská práce
Supervisor: Kerol, Valeria
Opponents: Novotný, Ota
Thesis language: Česky
Abstract:
Bakalářská práce se věnuje strojovému učení v oblasti Big Data. Cílem práce je zmapovat a vyhodnotit současný stav strojového učení v oblasti Big Data, vybrat a porovnat nejpoužívanější knihovny strojového učení v nástroji Apache Spark a poskytnout příručku, jak implementovat algoritmy daných knihoven. Teoretická část objasňuje pojem Big Data, nástroje Apache Hadoop a Apache Spark využívané v této oblasti, uvádí do problematiky strojového učení a popisuje nejpoužívanější knihovny strojového učení v nástroji Apache Spark včetně porovnávacích metrik. Praktická část je orientovaná na implementaci algoritmů z vybraných knihoven, sepsání příručky, jak je implementovat a na základě výstupů a implementace porovnání knihoven z více pohledů. Přínosem práce je seznámení čtenáře s problematikou strojového učení v oblasti Big Data, uvedení nejpoužívanějších knihoven strojového učení, porovnání vybraných knihoven a sepsání příručky k implementaci jejich algoritmů.
Keywords: knihovny; H2O; implementace; MLlib; příručka; strojové učení; gradient boosting; Apache Spark; Sparkling Water; big data; porovnání
Thesis title: Machine learning in the field of Big Data
Author: Šimánek, Michal
Thesis type: Bachelor thesis
Supervisor: Kerol, Valeria
Opponents: Novotný, Ota
Thesis language: Česky
Abstract:
This bachelor's thesis devotes to the field of machine learning in Big Data. The main aim is to map and evaluate current situation of machine learning in Big Data, select and compare the most used machine learning libraries in Apache Spark tool and provide guide, how to implement algorithms of selected libraries. Theoretical part consists of explaining concept of Big Data, tools Apache Hadoop and Apache Spark, machine learning and decribes most used machine learning libraries in the Apache Spark tool along with comparsion metrics. Practical part is oriented to implementation of algorithms of selected libraries, writing the guide for implementation and according to outcomes and implementations comparing selected libraries from different views. Contribution of this thesis is to introduce machine learning problematics in Big Data, describe most used machine learning libraries and compare selected libraries with providing guide how to implement their algorithms.
Keywords: guide; H2O; Sparkling Water; MLlib; comparsion; machine learning; big data; Apache Spark; implementation; gradient boosting; libraries

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 3. 2. 2017
Date of submission: 3. 5. 2017
Date of defense: 14. 6. 2017
Identifier in the InSIS system: https://insis.vse.cz/zp/60641/podrobnosti

Files for download

    Last update: