Využití metod vysvětlitelného strojového učení při klasifikaci textů
Název práce: | Využití metod vysvětlitelného strojového učení při klasifikaci textů |
---|---|
Autor(ka) práce: | Kubecová, Adriana |
Typ práce: | Diplomová práce |
Vedoucí práce: | Kliegr, Tomáš |
Oponenti práce: | Zamazal, Ondřej |
Jazyk práce: | Česky |
Abstrakt: | Diplomová práce se zaměřuje na výzkum a aplikaci metod vysvětlitelného strojového učení v oblasti klasifikace textu. Zvláštní pozornost je věnována implementaci a následnému srovnání metody LIME s nově vyvinutou metodou SMER. Teoretická část práce se věnuje rešerši současných metod vysvětlitelnosti modelů strojového učení, metod zpracování a reprezentace textu. V praktické části je implementována metoda LIME v kombinaci s natrénovaným klasifikátorem a modelem Word2Vec, čímž je umožněno získat lokální a následně i odvozená globální vysvětlení. Tyto výsledky jsou poté porovnány s metodou SMER pomocí evaluační techniky AOPCglobal. Během srovnání jsou zkoumány korelace a odchylky mezi oběma metodami a jsou analyzovány rozdíly mezi lokálními a globálními významnostmi. Bylo zjištěno, že v analyzovaném souboru dat se lokální LIME významnost většinou podstatně nelišila od globální významnosti daného slova. Tato práce proto navrhuje novou vizualizační techniku pro vyjádření významnosti slov, která používá globální významnost jako výchozí a přechází na lokální významnost pouze v případě, že se významnosti od sebe podstatně liší. Výsledky také ukazují, že obě metody, LIME i SMER, mají schopnost identifikovat klíčová slova, přičemž SMER se jeví jako přesnější ve srovnání s LIME. Hlavním přínosem práce je integrace výsledků obou metod pro poskytnutí komplexnějšího pohledu na významnost slov v textu, s možnostmi jejich přehledné vizualizace. V závěru práce jsou diskutovány dosažené výsledky, identifikovaná omezení a možnosti pro další výzkum. |
Klíčová slova: | LIME; SMER; klasifikace textu; Vysvětlitelné strojové učení |
Název práce: | Use of explainable machine learning methods in text classification |
---|---|
Autor(ka) práce: | Kubecová, Adriana |
Typ práce: | Diploma thesis |
Vedoucí práce: | Kliegr, Tomáš |
Oponenti práce: | Zamazal, Ondřej |
Jazyk práce: | Česky |
Abstrakt: | This master thesis focuses on the research and application of explainable machine learning methods in the field of text classification. Special attention is paid to the implementation and subsequent comparison of the LIME method with the newly developed SMER method. Theoretical part of the thesis is focused on the research of current methods of explainability of machine learning models, methods of text preprocessing and representation. In the practical part, the LIME method is implemented in combination with a trained classifier and the Word2Vec model, which allows for obtaining local and then derived global explanations. These results are then compared with the SMER method using the AOPCglobal evaluation technique. During the comparison, correlations, and variations between the two methods are examined and differences between local and global importances are analysed. It was observed that in the analysed dataset, the local LIME importance was mostly not substantially different from the global importance for that word. Therefore, this thesis proposes a new visualization technique for communicating word importance, which utilizes global importance by default and reverts to local importance only when it is substantially different. The results also show that both LIME and SMER methods could have the ability to identify key features, with SMER appearing to be more accurate compared to LIME. The main contribution of this work is the integration of the results of both methods, to provide a more comprehensive view of word importance in text, with the possibility of clearly visualizing them. The paper concludes with a discussion of the obtained results, the identified limitations, and opportunities for future research. |
Klíčová slova: | Explainable machine learning; LIME; SMER; text classification |
Informace o studiu
Studijní program / obor: | Informační management |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 13. 12. 2022 |
---|---|
Datum podání práce: | 3. 12. 2023 |
Datum obhajoby: | 25. 1. 2024 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/83130/podrobnosti |