Porovnání modelů strojového učení
Název práce: | Porovnání modelů strojového učení |
---|---|
Autor(ka) práce: | Gorovik, Mariya |
Typ práce: | Diplomová práce |
Vedoucí práce: | Bašta, Milan |
Oponenti práce: | Habarta, Filip |
Jazyk práce: | Česky |
Abstrakt: | Diplomová práce je zaměřena na porovnání metod strojového učení pro úlohu regrese. Mezi uvažované metody patří: lineární regrese, shrinkage metrody (lasso a hřebenová regrese), stromové metody (regresní strom, náhodný les a bagging). Cílem této práce je zkoumat efektivitu a výjimečnost každé metody a jejich srovnání na základě snadnosti interpretace modelů, kvality předpovědi, výpočetní a časové náročnosti. V diplomové práci jsou diskutovány vlastnosti a omezení každé metody, stabilita modelů v přítomnosti multikolinearity, odlehlých pozorování a nadbytečných informací. Výsledky modelů jsou podporovány vizualizacemi, které tyto metody umožňují. Veškeré modely jsou postaveny na reálných datech převzatých z otevřeného repozitáře UC Irvine Machine Learning Repository. Práce je zaměřena na sestavení kompletního průvodce popisujícího konstrukci modelů, analýzu výhod a nevýhod uvažovaných metod a analýzu chování metod v situacích, které ovlivňují kvalitu modelů. |
Klíčová slova: | lasso regrese; lineární regrese; hřebenová regrese; stromové metody; CART; náhodný les; bagging; metody interpretability |
Název práce: | Comparison of machine learning models |
---|---|
Autor(ka) práce: | Gorovik, Mariya |
Typ práce: | Diploma thesis |
Vedoucí práce: | Bašta, Milan |
Oponenti práce: | Habarta, Filip |
Jazyk práce: | Česky |
Abstrakt: | The diploma thesis is focused on the comparison of machine learning methods for the regression task. The methods considered include: linear regression, shrinkage methods (lasso and ridge regression), tree-based methods (regression tree CART, random forest and bagging). The aim of this work is to examine the effectiveness, uniqueness of each method and compare the methods based on the ease of interpretation of models, quality of prediction, computational complexity and time. The diploma thesis discusses the properties and limitations of each method, the stability of models in the presence of multicollinearity, outliers and redundant information. The results of the model are supported by visualizations that these methods allow. All models are based on real data taken from the open source UC Irvine Machine Learning Repository. The work is focused on compiling a complete guide describing the construction of models, analysis of the advantages and disadvantages of the considered methods and analysis of the methods behavior in situations that affect the quality of models. |
Klíčová slova: | linear regression; lasso regression; random forest; CART; bagging; model-agnostic interpretation methods; ridge regression; tree-based methods |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Statistika |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 11. 10. 2019 |
---|---|
Datum podání práce: | 24. 6. 2021 |
Datum obhajoby: | 24. 8. 2021 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/71237/podrobnosti |