Use of explainable machine learning methods in text classification

Thesis title: Využití metod vysvětlitelného strojového učení při klasifikaci textů
Author: Kubecová, Adriana
Thesis type: Diplomová práce
Supervisor: Kliegr, Tomáš
Opponents: Zamazal, Ondřej
Thesis language: Česky
Abstract:
Diplomová práce se zaměřuje na výzkum a aplikaci metod vysvětlitelného strojového učení v oblasti klasifikace textu. Zvláštní pozornost je věnována implementaci a následnému srovnání metody LIME s nově vyvinutou metodou SMER. Teoretická část práce se věnuje rešerši současných metod vysvětlitelnosti modelů strojového učení, metod zpracování a reprezentace textu. V praktické části je implementována metoda LIME v kombinaci s natrénovaným klasifikátorem a modelem Word2Vec, čímž je umožněno získat lokální a následně i odvozená globální vysvětlení. Tyto výsledky jsou poté porovnány s metodou SMER pomocí evaluační techniky AOPCglobal. Během srovnání jsou zkoumány korelace a odchylky mezi oběma metodami a jsou analyzovány rozdíly mezi lokálními a globálními významnostmi. Bylo zjištěno, že v analyzovaném souboru dat se lokální LIME významnost většinou podstatně nelišila od globální významnosti daného slova. Tato práce proto navrhuje novou vizualizační techniku pro vyjádření významnosti slov, která používá globální významnost jako výchozí a přechází na lokální významnost pouze v případě, že se významnosti od sebe podstatně liší. Výsledky také ukazují, že obě metody, LIME i SMER, mají schopnost identifikovat klíčová slova, přičemž SMER se jeví jako přesnější ve srovnání s LIME. Hlavním přínosem práce je integrace výsledků obou metod pro poskytnutí komplexnějšího pohledu na významnost slov v textu, s možnostmi jejich přehledné vizualizace. V závěru práce jsou diskutovány dosažené výsledky, identifikovaná omezení a možnosti pro další výzkum.
Keywords: LIME; SMER; klasifikace textu; Vysvětlitelné strojové učení
Thesis title: Use of explainable machine learning methods in text classification
Author: Kubecová, Adriana
Thesis type: Diploma thesis
Supervisor: Kliegr, Tomáš
Opponents: Zamazal, Ondřej
Thesis language: Česky
Abstract:
This master thesis focuses on the research and application of explainable machine learning methods in the field of text classification. Special attention is paid to the implementation and subsequent comparison of the LIME method with the newly developed SMER method. Theoretical part of the thesis is focused on the research of current methods of explainability of machine learning models, methods of text preprocessing and representation. In the practical part, the LIME method is implemented in combination with a trained classifier and the Word2Vec model, which allows for obtaining local and then derived global explanations. These results are then compared with the SMER method using the AOPCglobal evaluation technique. During the comparison, correlations, and variations between the two methods are examined and differences between local and global importances are analysed. It was observed that in the analysed dataset, the local LIME importance was mostly not substantially different from the global importance for that word. Therefore, this thesis proposes a new visualization technique for communicating word importance, which utilizes global importance by default and reverts to local importance only when it is substantially different. The results also show that both LIME and SMER methods could have the ability to identify key features, with SMER appearing to be more accurate compared to LIME. The main contribution of this work is the integration of the results of both methods, to provide a more comprehensive view of word importance in text, with the possibility of clearly visualizing them. The paper concludes with a discussion of the obtained results, the identified limitations, and opportunities for future research.
Keywords: Explainable machine learning; LIME; SMER; text classification

Information about study

Study programme: Informační management
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 13. 12. 2022
Date of submission: 3. 12. 2023
Date of defense: 25. 1. 2024
Identifier in the InSIS system: https://insis.vse.cz/zp/83130/podrobnosti

Files for download

    Last update: