Hodnocení výsledků klasifikačních úloh
Název práce: | Hodnocení výsledků klasifikačních úloh |
---|---|
Autor(ka) práce: | Janošíková, Lucie |
Typ práce: | Diplomová práce |
Vedoucí práce: | Řezanková, Hana |
Oponenti práce: | Šulc, Zdeněk |
Jazyk práce: | Česky |
Abstrakt: | Klasifikace dat představuje jednu z klíčových oblastí statistiky. Práce stručně představuje vybrané klasifikační metody, přičemž hlavní důraz je kladen na metody hodnocení výsledků klasifikačních úloh. Popsány jsou klasifikační tabulky pro binární i nebinární úlohy a z nich odvozené metriky, stejně jako pokročilejší míry úspěšnosti a souhlasu, například Cohenovo kappa, Matthewsův korelační koeficient nebo Brier skóre. Praktická část práce obsahuje analýzu několika datových souborů, které zahrnují jak reálná data z různých odvětví, tak uměle generované soubory pro binární klasifikaci i pro klasifikaci pro více tříd. Na každý datový soubor jsou aplikovány vybrané modely a jejich výstupy jsou vyhodnoceny pomocí představených metrik. Cílem práce je posoudit vhodnost metrik při hodnocení klasifikačních úloh v různých typech dat. V závislosti na vlastnostech dat, některé metriky mohou poskytovat odlišné nebo zavádějící informace. Analýza ukazuje, že AUC (Area Under Curve) je spolehlivou metrikou pro měření rozlišovací schopnosti modelu, zejména v binárních úlohách. Přesnost a úplnost se ukázaly jako klíčové při interpretaci výkonnosti v nerovnoměrně rozdělených třídách, kde každá z těchto metrik zachycuje jiný aspekt chyb klasifikace. Pro posouzení kvality pravděpodobnostních predikcí byly použity Brier skóre a logaritmická ztráta. V úlohách s více než dvěma třídami bylo hodnocení složitější, avšak metriky jako AUC nebo logaritmická ztráta stále poskytovaly srovnatelné výsledky. Dále byla zkoumána role Lasso regularizace, která měla pozitivní vliv na hodnoty AUC i Brier skóre, zejména u nevyvážených dat, u kterých přispěla ke zlepšení úplnosti méně zastoupených tříd. Po aplikaci Lasso byly výsledky modelů stabilnější a méně náchylné k přeučení, což vedlo k lepší generalizaci na nevyvážených datech. U logistické regrese a lineární diskriminační analýzy se po aplikaci Lasso zlepšila schopnost modelu rozlišovat mezi třídami, zatímco klasifikační stromy vykázaly pokles výkonu, protože redukce dimenzionality odstranila některé důležité proměnné. Hlavním přínosem práce je systematické porovnání evaluačních ukazatelů a jejich interpretací, které může sloužit jako návod pro volbu vhodné metriky pro konkrétní klasifikační úlohy. |
Klíčová slova: | Klasifikační úlohy; klasifikační tabulka; binární klasifikace; klasifikace pro více tříd; míry úspěšnosti a souhlasu |
Název práce: | Evaluation of the results of classification tasks |
---|---|
Autor(ka) práce: | Janošíková, Lucie |
Typ práce: | Diploma thesis |
Vedoucí práce: | Řezanková, Hana |
Oponenti práce: | Šulc, Zdeněk |
Jazyk práce: | Česky |
Abstrakt: | This thesis briefly introduces selected classification methods, with the main emphasis placed on methods for evaluating the results of classification tasks. It describes confusion matrices for both binary and multi-class tasks, along with derived metrics, as well as more advanced measures of performance and agreement, such as Cohen's kappa, Matthews correlation coefficient, and Brier score. The practical part of the thesis contains an analysis of several datasets, including real-world data from various domains as well as artificially generated datasets for both binary and multi-class classification. Selected models are applied to each dataset, and their outputs are evaluated using the metrics introduced. The aim of the thesis is to assess the suitability of these metrics for evaluating classification tasks across different types of data. Depending on the characteristics of the data, some metrics may provide differing or misleading insights. The analysis shows that AUC (Area Under Curve) is a reliable metric for measuring model discriminative ability, especially in binary tasks. Precision and recall proved crucial in interpreting performance in imbalanced classes, as each metric captures a different aspect of classification error. To assess the quality of probabilistic predictions, the Brier score and logarithmic loss were used. In tasks with more than two classes, evaluation was more complex, but metrics such as AUC and logarithmic loss still yielded comparable results. Furthermore, the role of Lasso regularization was explored. It had a positive impact on AUC and Brier score values, especially for imbalanced data, where it contributed to improved recall for underrepresented classes. After applying Lasso, the model results were more stable and less prone to overfitting, leading to better generalization on imbalanced data. In logistic regression and linear discriminant analysis, Lasso improved the model’s ability to distinguish between classes, whereas decision trees showed a decrease in performance due to dimensionality reduction eliminating some important variables. The main contribution of this work is a systematic comparison of evaluation metrics and their interpretations, which can serve as a guide for selecting appropriate metrics for specific classification tasks. |
Klíčová slova: | binary classification; multiclass classification; performance and agreement measures for classification tasks; confusion matrix; classification tasks |
Informace o studiu
Studijní program / obor: | Statistika |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 2. 10. 2023 |
---|---|
Datum podání práce: | 4. 5. 2025 |
Datum obhajoby: | 4. 6. 2025 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/85753/podrobnosti |