Porovnání modelů strojového učení

Název práce: Porovnání modelů strojového učení
Autor(ka) práce: Gorovik, Mariya
Typ práce: Diplomová práce
Vedoucí práce: Bašta, Milan
Oponenti práce: Habarta, Filip
Jazyk práce: Česky
Abstrakt:
Diplomová práce je zaměřena na porovnání metod strojového učení pro úlohu regrese. Mezi uvažované metody patří: lineární regrese, shrinkage metrody (lasso a hřebenová regrese), stromové metody (regresní strom, náhodný les a bagging). Cílem této práce je zkoumat efektivitu a výjimečnost každé metody a jejich srovnání na základě snadnosti interpretace modelů, kvality předpovědi, výpočetní a časové náročnosti. V diplomové práci jsou diskutovány vlastnosti a omezení každé metody, stabilita modelů v přítomnosti multikolinearity, odlehlých pozorování a nadbytečných informací. Výsledky modelů jsou podporovány vizualizacemi, které tyto metody umožňují. Veškeré modely jsou postaveny na reálných datech převzatých z otevřeného repozitáře UC Irvine Machine Learning Repository. Práce je zaměřena na sestavení kompletního průvodce popisujícího konstrukci modelů, analýzu výhod a nevýhod uvažovaných metod a analýzu chování metod v situacích, které ovlivňují kvalitu modelů.
Klíčová slova: lasso regrese; lineární regrese; hřebenová regrese; stromové metody; CART; náhodný les; bagging; metody interpretability
Název práce: Comparison of machine learning models
Autor(ka) práce: Gorovik, Mariya
Typ práce: Diploma thesis
Vedoucí práce: Bašta, Milan
Oponenti práce: Habarta, Filip
Jazyk práce: Česky
Abstrakt:
The diploma thesis is focused on the comparison of machine learning methods for the regression task. The methods considered include: linear regression, shrinkage methods (lasso and ridge regression), tree-based methods (regression tree CART, random forest and bagging). The aim of this work is to examine the effectiveness, uniqueness of each method and compare the methods based on the ease of interpretation of models, quality of prediction, computational complexity and time. The diploma thesis discusses the properties and limitations of each method, the stability of models in the presence of multicollinearity, outliers and redundant information. The results of the model are supported by visualizations that these methods allow. All models are based on real data taken from the open source UC Irvine Machine Learning Repository. The work is focused on compiling a complete guide describing the construction of models, analysis of the advantages and disadvantages of the considered methods and analysis of the methods behavior in situations that affect the quality of models.
Klíčová slova: linear regression; lasso regression; random forest; CART; bagging; model-agnostic interpretation methods; ridge regression; tree-based methods

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 11. 10. 2019
Datum podání práce: 24. 6. 2021
Datum obhajoby: 24. 8. 2021
Identifikátor v systému InSIS: https://insis.vse.cz/zp/71237/podrobnosti

Soubory ke stažení

    Poslední aktualizace: