Gradient Boosting Machine and Artificial Neural Networks in R and H2O

Thesis title: Gradient Boosting Machine and Artificial Neural Networks in R and H2O
Author: Sabo, Juraj
Thesis type: Diploma thesis
Supervisor: Bašta, Milan
Opponents: Plašil, Miroslav
Thesis language: English
Abstract:
Artificial neural networks are fascinating machine learning algorithms. They used to be considered unreliable and computationally very expensive. Now it is known that modern neural networks can be quite useful, but their computational expensiveness unfortunately remains. Statistical boosting is considered to be one of the most important machine learning ideas. It is based on an ensemble of weak models that together create a powerful learning system. The goal of this thesis is the comparison of these machine learning models on three use cases. The first use case deals with modeling the probability of burglary in the city of Chicago. The second use case is the typical example of customer churn prediction in telecommunication industry and the last use case is related to the problematic of the computer vision. The second goal of this thesis is to introduce an open-source machine learning platform called H2O. It includes, among other things, an interface for R and it is designed to run in standalone mode or on Hadoop. The thesis also includes the introduction into an open-source software library Apache Hadoop that allows for distributed processing of big data. Concretely into its open-source distribution Hortonworks Data Platform.
Keywords: Apache Hadoop; R; H2O; gradient boosting machine; neural networks; computer vision; customer churn reduction; public safety; Hortonworks Data Platform; machine learning
Thesis title: Gradient Boosting Machine and Artificial Neural Networks in R and H2O
Author: Sabo, Juraj
Thesis type: Diplomová práce
Supervisor: Bašta, Milan
Opponents: Plašil, Miroslav
Thesis language: English
Abstract:
Neuronové sítě jsou jedním z nejvíce fascinujících algoritmů strojového učení. Mají za sebou však velmi bouřlivý vývoj. Neuronové sítě byly dlouho považovány za algoritmus, který je velmi nespolehlivý a výpočetně náročný. Dnes již víme, že moderní neuronové sítě mohou být úspěšně aplikovány v mnoha úlohách, i když jejich hlavní nevýhoda, tedy značná výpočetní náročnost, stále přetrvává. Statistické modely založené na technice boosting, jsou považovány za jednu z nejpřevratnějších myšlenek na poli algoritmů strojového učení. Tyto modely jsou založeny kombinaci několika slabých modelů, které pak dohromady tvoří jeden silný model. Tato práce se zabývá srovnáním těchto dvou modelů na třech reálných případových studiích. První případová studie se zabývá modelováním pravděpodobnosti loupeže v ulicích města Chicago, druhá případová studie je klasickým příkladem modelování pravděpodobnosti, že zákazník telekomunikační společnosti vypoví smlouvu a poslední případová studie je aplikací počítačového vidění. Cílem této práce je také představení open-source platformy pro strojové učení H2O. H2O obsahuje mimo jiné rozhraní pro R a dokáže běžet samostatně, nebo na Hadoop clusteru. Práce také obsahuje úvod do open-source softwarové knihovny pro zpracování velkých dat Apache Hadoop. Konkrétně do open-source distribuce Hortonworks Data Platform.
Keywords: prevence odchodu zákazníka; veřejná bezpečnost; strojové učení; Hortonworks Data Platform; počítačové vidění; R; H2O; GBM; neuronové sítě; Apache Hadoop

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 3. 10. 2016
Date of submission: 4. 1. 2017
Date of defense: 1. 2. 2017
Identifier in the InSIS system: https://insis.vse.cz/zp/59058/podrobnosti

Files for download

    Last update: