Machine learning in the field of Big Data
Thesis title: | Strojové učení v oblasti Big Data |
---|---|
Author: | Šimánek, Michal |
Thesis type: | Bakalářská práce |
Supervisor: | Kerol, Valeria |
Opponents: | Novotný, Ota |
Thesis language: | Česky |
Abstract: | Bakalářská práce se věnuje strojovému učení v oblasti Big Data. Cílem práce je zmapovat a vyhodnotit současný stav strojového učení v oblasti Big Data, vybrat a porovnat nejpoužívanější knihovny strojového učení v nástroji Apache Spark a poskytnout příručku, jak implementovat algoritmy daných knihoven. Teoretická část objasňuje pojem Big Data, nástroje Apache Hadoop a Apache Spark využívané v této oblasti, uvádí do problematiky strojového učení a popisuje nejpoužívanější knihovny strojového učení v nástroji Apache Spark včetně porovnávacích metrik. Praktická část je orientovaná na implementaci algoritmů z vybraných knihoven, sepsání příručky, jak je implementovat a na základě výstupů a implementace porovnání knihoven z více pohledů. Přínosem práce je seznámení čtenáře s problematikou strojového učení v oblasti Big Data, uvedení nejpoužívanějších knihoven strojového učení, porovnání vybraných knihoven a sepsání příručky k implementaci jejich algoritmů. |
Keywords: | knihovny; H2O; implementace; MLlib; příručka; strojové učení; gradient boosting; Apache Spark; Sparkling Water; big data; porovnání |
Thesis title: | Machine learning in the field of Big Data |
---|---|
Author: | Šimánek, Michal |
Thesis type: | Bachelor thesis |
Supervisor: | Kerol, Valeria |
Opponents: | Novotný, Ota |
Thesis language: | Česky |
Abstract: | This bachelor's thesis devotes to the field of machine learning in Big Data. The main aim is to map and evaluate current situation of machine learning in Big Data, select and compare the most used machine learning libraries in Apache Spark tool and provide guide, how to implement algorithms of selected libraries. Theoretical part consists of explaining concept of Big Data, tools Apache Hadoop and Apache Spark, machine learning and decribes most used machine learning libraries in the Apache Spark tool along with comparsion metrics. Practical part is oriented to implementation of algorithms of selected libraries, writing the guide for implementation and according to outcomes and implementations comparing selected libraries from different views. Contribution of this thesis is to introduce machine learning problematics in Big Data, describe most used machine learning libraries and compare selected libraries with providing guide how to implement their algorithms. |
Keywords: | guide; H2O; Sparkling Water; MLlib; comparsion; machine learning; big data; Apache Spark; implementation; gradient boosting; libraries |
Information about study
Study programme: | Aplikovaná informatika/Aplikovaná informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information Technologies |
Information on submission and defense
Date of assignment: | 3. 2. 2017 |
---|---|
Date of submission: | 3. 5. 2017 |
Date of defense: | 14. 6. 2017 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/60641/podrobnosti |