Strojové učení v oblasti Big Data

Česky
English

Název práce:	Strojové učení v oblasti Big Data
Autor(ka) práce:	Šimánek, Michal
Typ práce:	Bakalářská práce
Vedoucí práce:	Kerol, Valeria
Oponenti práce:	Novotný, Ota
Jazyk práce:	Česky
Abstrakt:	Bakalářská práce se věnuje strojovému učení v oblasti Big Data. Cílem práce je zmapovat a vyhodnotit současný stav strojového učení v oblasti Big Data, vybrat a porovnat nejpoužívanější knihovny strojového učení v nástroji Apache Spark a poskytnout příručku, jak implementovat algoritmy daných knihoven. Teoretická část objasňuje pojem Big Data, nástroje Apache Hadoop a Apache Spark využívané v této oblasti, uvádí do problematiky strojového učení a popisuje nejpoužívanější knihovny strojového učení v nástroji Apache Spark včetně porovnávacích metrik. Praktická část je orientovaná na implementaci algoritmů z vybraných knihoven, sepsání příručky, jak je implementovat a na základě výstupů a implementace porovnání knihoven z více pohledů. Přínosem práce je seznámení čtenáře s problematikou strojového učení v oblasti Big Data, uvedení nejpoužívanějších knihoven strojového učení, porovnání vybraných knihoven a sepsání příručky k implementaci jejich algoritmů.
Klíčová slova:	knihovny; H2O; implementace; MLlib; příručka; strojové učení; gradient boosting; Apache Spark; Sparkling Water; big data; porovnání

Název práce:	Machine learning in the field of Big Data
Autor(ka) práce:	Šimánek, Michal
Typ práce:	Bachelor thesis
Vedoucí práce:	Kerol, Valeria
Oponenti práce:	Novotný, Ota
Jazyk práce:	Česky
Abstrakt:	This bachelor's thesis devotes to the field of machine learning in Big Data. The main aim is to map and evaluate current situation of machine learning in Big Data, select and compare the most used machine learning libraries in Apache Spark tool and provide guide, how to implement algorithms of selected libraries. Theoretical part consists of explaining concept of Big Data, tools Apache Hadoop and Apache Spark, machine learning and decribes most used machine learning libraries in the Apache Spark tool along with comparsion metrics. Practical part is oriented to implementation of algorithms of selected libraries, writing the guide for implementation and according to outcomes and implementations comparing selected libraries from different views. Contribution of this thesis is to introduce machine learning problematics in Big Data, describe most used machine learning libraries and compare selected libraries with providing guide how to implement their algorithms.
Klíčová slova:	guide; H2O; Sparkling Water; MLlib; comparsion; machine learning; big data; Apache Spark; implementation; gradient boosting; libraries

Informace o studiu

Studijní program / obor:	Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu:	Bakalářský studijní program
Přidělovaná hodnost:	Bc.
Instituce přidělující hodnost:	Vysoká škola ekonomická v Praze
Fakulta:	Fakulta informatiky a statistiky
Katedra:	Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce:	3. 2. 2017
Datum podání práce:	3. 5. 2017
Datum obhajoby:	14. 6. 2017
Identifikátor v systému InSIS:	https://insis.vse.cz/zp/60641/podrobnosti

Soubory ke stažení

Hlavní práce
60641_simm04.pdf, 1.8 MB Stáhnout

Oponentura
51425_novotnyo.pdf, 282.5 kB Stáhnout

Hodnocení vedoucího
60641_xkerv01.pdf, 36.2 kB Stáhnout