Gradient Boosting Machine and Artificial Neural Networks in R and H2O
Thesis title: | Gradient Boosting Machine and Artificial Neural Networks in R and H2O |
---|---|
Author: | Sabo, Juraj |
Thesis type: | Diploma thesis |
Supervisor: | Bašta, Milan |
Opponents: | Plašil, Miroslav |
Thesis language: | English |
Abstract: | Artificial neural networks are fascinating machine learning algorithms. They used to be considered unreliable and computationally very expensive. Now it is known that modern neural networks can be quite useful, but their computational expensiveness unfortunately remains. Statistical boosting is considered to be one of the most important machine learning ideas. It is based on an ensemble of weak models that together create a powerful learning system.
The goal of this thesis is the comparison of these machine learning models on three use cases. The first use case deals with modeling the probability of burglary in the city of Chicago. The second use case is the typical example of customer churn prediction in telecommunication industry and the last use case is related to the problematic of the computer vision. The second goal of this thesis is to introduce an open-source machine learning platform called H2O. It includes, among other things, an interface for R and it is designed to run in standalone mode or on Hadoop. The thesis also includes the introduction into an open-source software library Apache Hadoop that allows for distributed processing of big data. Concretely into its open-source distribution Hortonworks Data Platform. |
Keywords: | Apache Hadoop; R; H2O; gradient boosting machine; neural networks; computer vision; customer churn reduction; public safety; Hortonworks Data Platform; machine learning |
Thesis title: | Gradient Boosting Machine and Artificial Neural Networks in R and H2O |
---|---|
Author: | Sabo, Juraj |
Thesis type: | Diplomová práce |
Supervisor: | Bašta, Milan |
Opponents: | Plašil, Miroslav |
Thesis language: | English |
Abstract: | Neuronové sítě jsou jedním z nejvíce fascinujících algoritmů strojového učení. Mají za sebou však velmi bouřlivý vývoj. Neuronové sítě byly dlouho považovány za algoritmus, který je velmi nespolehlivý a výpočetně náročný. Dnes již víme, že moderní neuronové sítě mohou být úspěšně aplikovány v mnoha úlohách, i když jejich hlavní nevýhoda, tedy značná výpočetní náročnost, stále přetrvává. Statistické modely založené na technice boosting, jsou považovány za jednu z nejpřevratnějších myšlenek na poli algoritmů strojového učení. Tyto modely jsou založeny kombinaci několika slabých modelů, které pak dohromady tvoří jeden silný model.
Tato práce se zabývá srovnáním těchto dvou modelů na třech reálných případových studiích. První případová studie se zabývá modelováním pravděpodobnosti loupeže v ulicích města Chicago, druhá případová studie je klasickým příkladem modelování pravděpodobnosti, že zákazník telekomunikační společnosti vypoví smlouvu a poslední případová studie je aplikací počítačového vidění. Cílem této práce je také představení open-source platformy pro strojové učení H2O. H2O obsahuje mimo jiné rozhraní pro R a dokáže běžet samostatně, nebo na Hadoop clusteru. Práce také obsahuje úvod do open-source softwarové knihovny pro zpracování velkých dat Apache Hadoop. Konkrétně do open-source distribuce Hortonworks Data Platform. |
Keywords: | prevence odchodu zákazníka; veřejná bezpečnost; strojové učení; Hortonworks Data Platform; počítačové vidění; R; H2O; GBM; neuronové sítě; Apache Hadoop |
Information about study
Study programme: | Kvantitativní metody v ekonomice/Statistika |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 3. 10. 2016 |
---|---|
Date of submission: | 4. 1. 2017 |
Date of defense: | 1. 2. 2017 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/59058/podrobnosti |