Evaluation of text clustering comprehensibility

Thesis title: Evaluation of text clustering comprehensibility
Author: Žárský, Jiří
Thesis type: Diploma thesis
Supervisor: Kliegr, Tomáš
Opponents: Bahník, Štěpán
Thesis language: English
This master thesis aims to evaluate three methods for visualizing results of text clustering, which is an unsupervised task of mining textual data, by conducting a user study. Before conceiving visualizations, clustering analysis of the “Russian Troll tweets” data set was performed. The analysis was completed using Python in accordance with the CRISP-DM methodology. The visualizations investigated in the user study were word clouds computed from TF-IDF frequencies or their Z-scores and Z-scores shown as bar charts. The author himself designed word clouds calculated from Z-scores; other visualizations were created based on available literature. Survey methodology was adapted from the study of comprehensibility of decision trees by Piltaver et al. (2016)* and included “classify”, “explain” and “validate” tasks, and three measures (correct answers, subjective comprehensibility, and time required). Hypotheses, the procedure, and planned analyses were pre-registered before data collection at osf.io, and participants were recruited via crowdsourcing. Based on responses from 188 participants, word clouds generated from Z-scores were found to produce the most comprehensible visualizations of textual data clusters.* PILTAVER, Rok, LUŠTREK, Mitja, GAMS, Matjaž and MARTINČIĆ-IPŠIĆ, Sanda. What makes classification trees comprehensible? Expert Systems with Applications. November 2016. Vol. 62, p. 333–346. DOI 10.1016/j.eswa.2016.06.009.
Keywords: text mining; comprehensibility; Clustering; crowd sourcing; data mining; machine learning; Z-score; word cloud
Thesis title: Evaluace srozumitelnosti pro shlukování textu
Author: Žárský, Jiří
Thesis type: Diplomová práce
Supervisor: Kliegr, Tomáš
Opponents: Bahník, Štěpán
Thesis language: English
Diplomová práce má za cíl porovnat tři metody pro vizualizaci shluků textu (shlukování je metoda strojového učení bez učitele) za pomocí uživatelského průzkumu. Před vytvořením vizualizací je v práci provedena shluková analýza datové sady ze sociální sítě Twitter známé jako „Russian troll tweets“. Analýza je provedena dle metodiky CRISP-DM. Tři vizualizace zahrnují slovní mraky vypočítané z TD-IDF frekvencí nebo jejich Z-skóre a také Z-skóre prezentované jako sloupcové grafy. Autor sám navrhl vizualizaci, která zobrazuje slovní mraky vygenerované pomocí Z-skóre. Ostatní vizualizace byly vytvořeny na základě literatury. Metodologie průzkumu byla adaptována z Piltaver a kol. (2016)* a zahrnuje úkoly „classify“, „explain“ a „validate“ a tři metriky (správnost odpovědí, subjektivní srozumitelnost a potřebný čas). Hypotézy, procedura a plánovaná analýza byly registrovány před sběrem dat na platformě na osf.io. Respondenti byli získáni prostřednictvím crowdsourcingové platformy Prolific. Na základě odpovědí od 188 respondentů bylo zjištěno, že slovní mraky využívající Z-skóre jsou nejlépe srozumitelné vizualizace pro shluky textových dat.* PILTAVER, Rok, LUŠTREK, Mitja, GAMS, Matjaž and MARTINČIĆ-IPŠIĆ, Sanda. What makes classification trees comprehensible? Expert Systems with Applications. November 2016. Vol. 62, p. 333–346. DOI 10.1016/j.eswa.2016.06.009
Keywords: srozumitelnost; dobývání znalostí z textu; shlukování; slovní mraky; strojové učení; Z-skóre; Crowd sourcing; dobývání znalostí

Information about study

Study programme: Aplikovaná informatika/Informační systémy a technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 25. 6. 2018
Date of submission: 30. 11. 2019
Date of defense: 3. 2. 2020
Identifier in the InSIS system: https://insis.vse.cz/zp/66286/podrobnosti

Files for download

    Last update: