Analysis of Interpretable Decision Sets Algorithm

Thesis title: Analýza algoritmu Interpretable Decision Sets
Author: Filip, Jiří
Thesis type: Diplomová práce
Supervisor: Kliegr, Tomáš
Opponents: Kopp, Martin
Thesis language: Česky
Abstract:
Tato práce se zaměřuje na analýzu algoritmu Interpretable Decision Sets (IDS). Ten si klade za cíl vytvářet interpretovatelné klasifikátory z asociačních pravidel na základě submodulární maximalizace. Algoritmus však (dle našich experimentů) ve své referenční implementaci funguje velice pomalu a nespolehlivě. Chybí rovněž spolehlivá implementace procedury pro hledání vhodných hyper-parametrů, bez nichž algoritmus není schopen naplňovat svůj potenciál interpretovatelné klasifikace. Tato práce si klade za cíl algoritmus analyzovat a odhalit, popřípadě opravit, jeho nedostatky. V teoretické části práce jsou do hloubky rozebrány vlastnosti algoritmu, včetně matematického pozadí. K výkladu jsou připojeny rozličné poznatky o fungování a vlastnostech algoritmu, které jsme byli schopni za dobu testování IDS shromáždit. V praktické části jsou tyto poznatky využity a je přednesen návrh pro zaměnění algoritmu pro submodulární optimalizaci za algoritmus RUSM (Randomized Unconstrained Submodular Maximization), který je výkonnější a časově méně náročný. Dále je upravena procedura pro hledání vhodných hyper-parametrů, aby dokázala poskytovat uspokojivé výsledky i pro velmi přísná nastavení podmínek interpretability. Kromě toho jsou rozebrány některé další nedostatky a vlastnosti algoritmu. Výstupem práce je implementace IDS v programovacím jazyce Python - pyIDS. Vzhledem k časové náročnosti algoritmu slouží implementace spíše pro výzkumné účely a jako taková nabízí rozličné možnosti nastavení algoritmu a jeho částí. Tato práce rovněž zahrnuje benchmark algoritmů IDS a CBA, který hodnotí klasifikační výkonnost algoritmů a také jejich schopnost poskytovat interpretovatelná řešení.
Keywords: asociační pravidla; machine learning; interpretabilita; pyID; IDS
Thesis title: Analysis of Interpretable Decision Sets Algorithm
Author: Filip, Jiří
Thesis type: Diploma thesis
Supervisor: Kliegr, Tomáš
Opponents: Kopp, Martin
Thesis language: Česky
Abstract:
This thesis focuses on the analysis of the Interpretable Decision Sets (IDS) algorithm. The objective of IDS is to build interpretable classifiers from association rules. To achieve interpretability and classification accuracy, the algorithm uses submodular maximization. However, according to our experiments with the reference implementation, the algorithm is very slow. There is also a lack of reliable implementation of the hyper-parameter search procedure. Without it, the algorithm is not able to fulfill its potential for interpretable classification. This work aims to analyze the IDS algorithm and determine its shortcomings. In the theoretical part of the work, the properties of the algorithm, including the mathematical background, are analyzed in depth. Included are various findings on the operation and properties of the algorithm. In the practical part, we propose replacing the algorithm for submodular optimization by the Randomized Unconstrained Submodular Maximization algorithm, which is more powerful and less time-consuming. Furthermore, the procedure for hyper-parameter search is modified to be able to achieve satisfactory results even when interpretability conditions are very strict. In addition, some other shortcomings and features of the algorithm are discussed. The result of our work is a Python implementation of IDS - pyIDS. It is aimed mainly for research purposes and as such offers various options for configuration of the algorithm and all its parts. This work also includes a benchmark between IDS and CBA algorithms, measuring their classification performance and ability to satisfy interpretability constraints.
Keywords: IDS; machine learning; association rules; interpretability; pyIDS

Information about study

Study programme: Aplikovaná informatika/Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 25. 9. 2019
Date of submission: 7. 12. 2020
Date of defense: 2. 2. 2021
Identifier in the InSIS system: https://insis.vse.cz/zp/70783/podrobnosti

Files for download

    Last update: