Evaluation of text clustering comprehensibility
Thesis title: | Evaluation of text clustering comprehensibility |
---|---|
Author: | Žárský, Jiří |
Thesis type: | Diploma thesis |
Supervisor: | Kliegr, Tomáš |
Opponents: | Bahník, Štěpán |
Thesis language: | English |
Abstract: | This master thesis aims to evaluate three methods for visualizing results of text clustering, which is an unsupervised task of mining textual data, by conducting a user study. Before conceiving visualizations, clustering analysis of the “Russian Troll tweets” data set was performed. The analysis was completed using Python in accordance with the CRISP-DM methodology. The visualizations investigated in the user study were word clouds computed from TF-IDF frequencies or their Z-scores and Z-scores shown as bar charts. The author himself designed word clouds calculated from Z-scores; other visualizations were created based on available literature. Survey methodology was adapted from the study of comprehensibility of decision trees by Piltaver et al. (2016)* and included “classify”, “explain” and “validate” tasks, and three measures (correct answers, subjective comprehensibility, and time required). Hypotheses, the procedure, and planned analyses were pre-registered before data collection at osf.io, and participants were recruited via crowdsourcing. Based on responses from 188 participants, word clouds generated from Z-scores were found to produce the most comprehensible visualizations of textual data clusters.* PILTAVER, Rok, LUŠTREK, Mitja, GAMS, Matjaž and MARTINČIĆ-IPŠIĆ, Sanda. What makes classification trees comprehensible? Expert Systems with Applications. November 2016. Vol. 62, p. 333–346. DOI 10.1016/j.eswa.2016.06.009. |
Keywords: | text mining; comprehensibility; Clustering; crowd sourcing; data mining; machine learning; Z-score; word cloud |
Thesis title: | Evaluace srozumitelnosti pro shlukování textu |
---|---|
Author: | Žárský, Jiří |
Thesis type: | Diplomová práce |
Supervisor: | Kliegr, Tomáš |
Opponents: | Bahník, Štěpán |
Thesis language: | English |
Abstract: | Diplomová práce má za cíl porovnat tři metody pro vizualizaci shluků textu (shlukování je metoda strojového učení bez učitele) za pomocí uživatelského průzkumu. Před vytvořením vizualizací je v práci provedena shluková analýza datové sady ze sociální sítě Twitter známé jako „Russian troll tweets“. Analýza je provedena dle metodiky CRISP-DM. Tři vizualizace zahrnují slovní mraky vypočítané z TD-IDF frekvencí nebo jejich Z-skóre a také Z-skóre prezentované jako sloupcové grafy. Autor sám navrhl vizualizaci, která zobrazuje slovní mraky vygenerované pomocí Z-skóre. Ostatní vizualizace byly vytvořeny na základě literatury. Metodologie průzkumu byla adaptována z Piltaver a kol. (2016)* a zahrnuje úkoly „classify“, „explain“ a „validate“ a tři metriky (správnost odpovědí, subjektivní srozumitelnost a potřebný čas). Hypotézy, procedura a plánovaná analýza byly registrovány před sběrem dat na platformě na osf.io. Respondenti byli získáni prostřednictvím crowdsourcingové platformy Prolific. Na základě odpovědí od 188 respondentů bylo zjištěno, že slovní mraky využívající Z-skóre jsou nejlépe srozumitelné vizualizace pro shluky textových dat.* PILTAVER, Rok, LUŠTREK, Mitja, GAMS, Matjaž and MARTINČIĆ-IPŠIĆ, Sanda. What makes classification trees comprehensible? Expert Systems with Applications. November 2016. Vol. 62, p. 333–346. DOI 10.1016/j.eswa.2016.06.009 |
Keywords: | srozumitelnost; dobývání znalostí z textu; shlukování; slovní mraky; strojové učení; Z-skóre; Crowd sourcing; dobývání znalostí |
Information about study
Study programme: | Aplikovaná informatika/Informační systémy a technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 25. 6. 2018 |
---|---|
Date of submission: | 30. 11. 2019 |
Date of defense: | 3. 2. 2020 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/66286/podrobnosti |