Vzory strojového učení s jednoduchou vizualizací
| Název práce: | ML patterns with easy visualization |
|---|---|
| Autor(ka) práce: | Avdeeva, Nadezhda |
| Typ práce: | Diploma thesis |
| Vedoucí práce: | Máša, Petr |
| Oponenti práce: | Chudán, David |
| Jazyk práce: | English |
| Abstrakt: | This thesis evaluates visualizations used in Explainable Artificial Intelligence for tree-based machine learning models. The thesis aims to select post hoc XAI techniques and propose a structured way to compare their visualizations for white-box and black-box models. It also discusses the trade-off between predictive performance and ease of interpretation and provides recommendations for analysts who need readable explanations with performance close to strong black-box models. The empirical analysis is based on two tabular classification datasets: Titanic and Heart Failure Readmission. Five tree-based models are evaluated: Decision Tree, Random Forest, XGBoost, LightGBM, and Histogram-based Gradient Boosting. The applied XAI techniques include SHAP, LIME, Permutation Feature Importance, PDP, ICE, and ALE. The proposed evaluation framework groups visualizations by their analytical task and applies suitable metrics to each group. These include Just Noticeable Difference, Visual Channel Score, Mapping Complexity Score, data density, visual occupancy, pixel entropy, line crossings, overplotting, parallelism, convergence, and divergence. The results show that no single visualization is universally best. Ranked bar views, especially SHAP summary bar and PFI, are the clearest for direct feature comparison. SHAP waterfall is more compact than SHAP force plot, while ICE and SHAP decision plots are useful but visually more complex. The results also show that simple models are not always visually clearer. In this study, Random Forest combined with simple SHAP-based visualizations provided the best balance between performance and interpretability. |
| Klíčová slova: | Classification; Visualization Quality; Explainable AI; Visualization Evaluation; Tree-based Models; Tabular Data |
| Název práce: | Vzory strojového učení s jednoduchou vizualizací |
|---|---|
| Autor(ka) práce: | Avdeeva, Nadezhda |
| Typ práce: | Diplomová práce |
| Vedoucí práce: | Máša, Petr |
| Oponenti práce: | Chudán, David |
| Jazyk práce: | English |
| Abstrakt: | Daná diplomová práce hodnotí vizualizace používané v oblasti Explainable Artificial Intelligence pro tree-based modely strojového učení. Cílem práce je vybrat post hoc techniky XAI a navrhnout strukturovaný způsob porovnání jejich vizualizací u white-box a black-box modelů. Práce se také zabývá kompromisem mezi prediktivní výkonností a snadnou interpretovatelností a poskytuje doporučení pro analytiky, kteří potřebují srozumitelná vysvětlení při zachování výkonnosti blízké black-box modelům. Empirická analýza je založena na dvou klasifikačních datasetech: Titanic a Heart Failure Readmission. Hodnoceno je pět tree-based modelů: Decision Tree, Random Forest, XGBoost, LightGBM a Histogram-based Gradient Boosting. Použité techniky XAI zahrnují SHAP, LIME, Permutation Feature Importance, PDP, ICE a ALE. Navržený rámec hodnocení seskupuje vizualizace podle jejich analytické úlohy a pro každou skupinu používá vhodné metriky. Mezi ně patří Just Noticeable Difference, Visual Channel Score, Mapping Complexity Score, data density (hustota dat), visual occupancy, pixel entropy, line crossings, overplotting, parallelism, konvergence a divergence. Výsledky ukazují, že žádná vizualizace není univerzálně nejlepší. Sloupcové grafy, zejména SHAP summary bar a PFI, jsou nejpřehlednější pro přímé porovnání důležitosti atributů. SHAP waterfall je kompaktnější než SHAP force plot, zatímco ICE a SHAP decision plots jsou užitečné, ale vizuálně složitější. Výsledky také ukazují, že jednodušší modely nemusí vždy vést k přehlednějším vizualizacím. V této práci kombinace modelu Random Forest a jednoduchých vizualizací založených na SHAP poskytla nejlepší rovnováhu mezi výkonností a interpretovatelností. |
| Klíčová slova: | kvalita vizualizací; hodnocení vizualizací; tabulární data; tree-based modely; vysvětlitelná umělá inteligence; klasifikace |
Informace o studiu
| Studijní program / obor: | Znalostní a webové technologie |
|---|---|
| Typ studijního programu: | Magisterský studijní program |
| Přidělovaná hodnost: | Ing. |
| Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
| Fakulta: | Fakulta informatiky a statistiky |
| Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
| Datum zadání práce: | 17. 4. 2025 |
|---|---|
| Datum podání práce: | 4. 5. 2026 |
| Datum obhajoby: | 1. 6. 2026 |
| Identifikátor v systému InSIS: | https://insis.vse.cz/zp/92165/podrobnosti |