Využití metod vysvětlitelného strojového učení při klasifikaci textů

Česky
English

Název práce:	Využití metod vysvětlitelného strojového učení při klasifikaci textů
Autor(ka) práce:	Kubecová, Adriana
Typ práce:	Diplomová práce
Vedoucí práce:	Kliegr, Tomáš
Oponenti práce:	Zamazal, Ondřej
Jazyk práce:	Česky
Abstrakt:	Diplomová práce se zaměřuje na výzkum a aplikaci metod vysvětlitelného strojového učení v oblasti klasifikace textu. Zvláštní pozornost je věnována implementaci a následnému srovnání metody LIME s nově vyvinutou metodou SMER. Teoretická část práce se věnuje rešerši současných metod vysvětlitelnosti modelů strojového učení, metod zpracování a reprezentace textu. V praktické části je implementována metoda LIME v kombinaci s natrénovaným klasifikátorem a modelem Word2Vec, čímž je umožněno získat lokální a následně i odvozená globální vysvětlení. Tyto výsledky jsou poté porovnány s metodou SMER pomocí evaluační techniky AOPCglobal. Během srovnání jsou zkoumány korelace a odchylky mezi oběma metodami a jsou analyzovány rozdíly mezi lokálními a globálními významnostmi. Bylo zjištěno, že v analyzovaném souboru dat se lokální LIME významnost většinou podstatně nelišila od globální významnosti daného slova. Tato práce proto navrhuje novou vizualizační techniku pro vyjádření významnosti slov, která používá globální významnost jako výchozí a přechází na lokální významnost pouze v případě, že se významnosti od sebe podstatně liší. Výsledky také ukazují, že obě metody, LIME i SMER, mají schopnost identifikovat klíčová slova, přičemž SMER se jeví jako přesnější ve srovnání s LIME. Hlavním přínosem práce je integrace výsledků obou metod pro poskytnutí komplexnějšího pohledu na významnost slov v textu, s možnostmi jejich přehledné vizualizace. V závěru práce jsou diskutovány dosažené výsledky, identifikovaná omezení a možnosti pro další výzkum.
Klíčová slova:	LIME; SMER; klasifikace textu; Vysvětlitelné strojové učení

Název práce:	Use of explainable machine learning methods in text classification
Autor(ka) práce:	Kubecová, Adriana
Typ práce:	Diploma thesis
Vedoucí práce:	Kliegr, Tomáš
Oponenti práce:	Zamazal, Ondřej
Jazyk práce:	Česky
Abstrakt:	This master thesis focuses on the research and application of explainable machine learning methods in the field of text classification. Special attention is paid to the implementation and subsequent comparison of the LIME method with the newly developed SMER method. Theoretical part of the thesis is focused on the research of current methods of explainability of machine learning models, methods of text preprocessing and representation. In the practical part, the LIME method is implemented in combination with a trained classifier and the Word2Vec model, which allows for obtaining local and then derived global explanations. These results are then compared with the SMER method using the AOPCglobal evaluation technique. During the comparison, correlations, and variations between the two methods are examined and differences between local and global importances are analysed. It was observed that in the analysed dataset, the local LIME importance was mostly not substantially different from the global importance for that word. Therefore, this thesis proposes a new visualization technique for communicating word importance, which utilizes global importance by default and reverts to local importance only when it is substantially different. The results also show that both LIME and SMER methods could have the ability to identify key features, with SMER appearing to be more accurate compared to LIME. The main contribution of this work is the integration of the results of both methods, to provide a more comprehensive view of word importance in text, with the possibility of clearly visualizing them. The paper concludes with a discussion of the obtained results, the identified limitations, and opportunities for future research.
Klíčová slova:	Explainable machine learning; LIME; SMER; text classification

Informace o studiu

Studijní program / obor:	Informační management
Typ studijního programu:	Magisterský studijní program
Přidělovaná hodnost:	Ing.
Instituce přidělující hodnost:	Vysoká škola ekonomická v Praze
Fakulta:	Fakulta informatiky a statistiky
Katedra:	Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce:	13. 12. 2022
Datum podání práce:	3. 12. 2023
Datum obhajoby:	25. 1. 2024
Identifikátor v systému InSIS:	https://insis.vse.cz/zp/83130/podrobnosti

Soubory ke stažení

Hlavní práce
83130_kuba04.pdf, 2.8 MB Stáhnout

Oponentura
80686_svabo.pdf, 60 kB Stáhnout

Hodnocení vedoucího
83130_klit01.pdf, 52.2 kB Stáhnout