Hodnocení klasifikačních metod na nevyvážených datových souborech
Název práce: | Hodnocení klasifikačních metod na nevyvážených datových souborech |
---|---|
Autor(ka) práce: | Šimůnek, Jan |
Typ práce: | Diplomová práce |
Vedoucí práce: | Tomanová, Petra |
Oponenti práce: | Vávra, Vojtěch |
Jazyk práce: | Česky |
Abstrakt: | Tato diplomová práce se zaměřuje na analýzu výkonnosti různých klasifikačních metod při práci s nevyváženými datovými soubory. Zkoumá vliv technik vyvážení dat, jako jsou SMOTE, undersampling a oversampling, na výkonnost klasifikačních modelů. Hlavním cílem je zjistit, zda tyto techniky skutečně zlepšují predikční schopnosti klasifikačních modelů. Studie se soustředí na tři konkrétní klasifikační metody: logistickou regresi, Random Forest a Hellinger Distance Decision Tree (HDDT), a sleduje, na jakých datech jsou nejúčinnější. Dále se analyzuje využití Leave-One-Out Cross-Validation (LOOCV) a stanovení prahu pomocí kvantilu jako metod pro hodnocení modelů. |
Klíčová slova: | Hellinger Distance Decision Tree; Logistická regrese; nevyvážená data; Random Forest |
Název práce: | Evaluation of classification methods on imbalanced datasets |
---|---|
Autor(ka) práce: | Šimůnek, Jan |
Typ práce: | Diploma thesis |
Vedoucí práce: | Tomanová, Petra |
Oponenti práce: | Vávra, Vojtěch |
Jazyk práce: | Česky |
Abstrakt: | This thesis focuses on analyzing the performance of different classification methods when dealing with imbalanced datasets. It investigates the effect of data balancing techniques such as SMOTE, undersampling and oversampling on the performance of classification models. The main goal is to determine whether these techniques actually improve the prediction capabilities of classification models. The study focuses on three specific classification methods: logistic regression, Random Forest and Hellinger Distance Decision Tree (HDDT), and examines on which data they are most effective. It also analyzes the use of Leave-One-Out Cross-Validation (LOOCV) and thresholding using quantile as methods for evaluating models. |
Klíčová slova: | Hellinger Distance Decision Tree; imbalanced data; Logistic regression; Random Forest |
Informace o studiu
Studijní program / obor: | Ekonometrie a operační výzkum |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra ekonometrie |
Informace o odevzdání a obhajobě
Datum zadání práce: | 4. 11. 2022 |
---|---|
Datum podání práce: | 27. 6. 2024 |
Datum obhajoby: | 29. 1. 2025 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/82651/podrobnosti |