Comparison of machine learning models

Thesis title: Porovnání modelů strojového učení
Author: Gorovik, Mariya
Thesis type: Diplomová práce
Supervisor: Bašta, Milan
Opponents: Habarta, Filip
Thesis language: Česky
Abstract:
Diplomová práce je zaměřena na porovnání metod strojového učení pro úlohu regrese. Mezi uvažované metody patří: lineární regrese, shrinkage metrody (lasso a hřebenová regrese), stromové metody (regresní strom, náhodný les a bagging). Cílem této práce je zkoumat efektivitu a výjimečnost každé metody a jejich srovnání na základě snadnosti interpretace modelů, kvality předpovědi, výpočetní a časové náročnosti. V diplomové práci jsou diskutovány vlastnosti a omezení každé metody, stabilita modelů v přítomnosti multikolinearity, odlehlých pozorování a nadbytečných informací. Výsledky modelů jsou podporovány vizualizacemi, které tyto metody umožňují. Veškeré modely jsou postaveny na reálných datech převzatých z otevřeného repozitáře UC Irvine Machine Learning Repository. Práce je zaměřena na sestavení kompletního průvodce popisujícího konstrukci modelů, analýzu výhod a nevýhod uvažovaných metod a analýzu chování metod v situacích, které ovlivňují kvalitu modelů.
Keywords: lasso regrese; lineární regrese; hřebenová regrese; stromové metody; CART; náhodný les; bagging; metody interpretability
Thesis title: Comparison of machine learning models
Author: Gorovik, Mariya
Thesis type: Diploma thesis
Supervisor: Bašta, Milan
Opponents: Habarta, Filip
Thesis language: Česky
Abstract:
The diploma thesis is focused on the comparison of machine learning methods for the regression task. The methods considered include: linear regression, shrinkage methods (lasso and ridge regression), tree-based methods (regression tree CART, random forest and bagging). The aim of this work is to examine the effectiveness, uniqueness of each method and compare the methods based on the ease of interpretation of models, quality of prediction, computational complexity and time. The diploma thesis discusses the properties and limitations of each method, the stability of models in the presence of multicollinearity, outliers and redundant information. The results of the model are supported by visualizations that these methods allow. All models are based on real data taken from the open source UC Irvine Machine Learning Repository. The work is focused on compiling a complete guide describing the construction of models, analysis of the advantages and disadvantages of the considered methods and analysis of the methods behavior in situations that affect the quality of models.
Keywords: linear regression; lasso regression; random forest; CART; bagging; model-agnostic interpretation methods; ridge regression; tree-based methods

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 11. 10. 2019
Date of submission: 24. 6. 2021
Date of defense: 24. 8. 2021
Identifier in the InSIS system: https://insis.vse.cz/zp/71237/podrobnosti

Files for download

    Last update: