Hodnocení klasifikačních metod na nevyvážených datových souborech

Název práce: Hodnocení klasifikačních metod na nevyvážených datových souborech
Autor(ka) práce: Šimůnek, Jan
Typ práce: Diplomová práce
Vedoucí práce: Tomanová, Petra
Oponenti práce: Vávra, Vojtěch
Jazyk práce: Česky
Abstrakt:
Tato diplomová práce se zaměřuje na analýzu výkonnosti různých klasifikačních metod při práci s nevyváženými datovými soubory. Zkoumá vliv technik vyvážení dat, jako jsou SMOTE, undersampling a oversampling, na výkonnost klasifikačních modelů. Hlavním cílem je zjistit, zda tyto techniky skutečně zlepšují predikční schopnosti klasifikačních modelů. Studie se soustředí na tři konkrétní klasifikační metody: logistickou regresi, Random Forest a Hellinger Distance Decision Tree (HDDT), a sleduje, na jakých datech jsou nejúčinnější. Dále se analyzuje využití Leave-One-Out Cross-Validation (LOOCV) a stanovení prahu pomocí kvantilu jako metod pro hodnocení modelů.
Klíčová slova: Hellinger Distance Decision Tree; Logistická regrese; nevyvážená data; Random Forest
Název práce: Evaluation of classification methods on imbalanced datasets
Autor(ka) práce: Šimůnek, Jan
Typ práce: Diploma thesis
Vedoucí práce: Tomanová, Petra
Oponenti práce: Vávra, Vojtěch
Jazyk práce: Česky
Abstrakt:
This thesis focuses on analyzing the performance of different classification methods when dealing with imbalanced datasets. It investigates the effect of data balancing techniques such as SMOTE, undersampling and oversampling on the performance of classification models. The main goal is to determine whether these techniques actually improve the prediction capabilities of classification models. The study focuses on three specific classification methods: logistic regression, Random Forest and Hellinger Distance Decision Tree (HDDT), and examines on which data they are most effective. It also analyzes the use of Leave-One-Out Cross-Validation (LOOCV) and thresholding using quantile as methods for evaluating models.
Klíčová slova: Hellinger Distance Decision Tree; imbalanced data; Logistic regression; Random Forest

Informace o studiu

Studijní program / obor: Ekonometrie a operační výzkum
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra ekonometrie

Informace o odevzdání a obhajobě

Datum zadání práce: 4. 11. 2022
Datum podání práce: 27. 6. 2024
Datum obhajoby: 2024

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: