Evaluace srozumitelnosti pro shlukování textu

Název práce: Evaluation of text clustering comprehensibility
Autor(ka) práce: Žárský, Jiří
Typ práce: Diploma thesis
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Bahník, Štěpán
Jazyk práce: English
Abstrakt:
This master thesis aims to evaluate three methods for visualizing results of text clustering, which is an unsupervised task of mining textual data, by conducting a user study. Before conceiving visualizations, clustering analysis of the “Russian Troll tweets” data set was performed. The analysis was completed using Python in accordance with the CRISP-DM methodology. The visualizations investigated in the user study were word clouds computed from TF-IDF frequencies or their Z-scores and Z-scores shown as bar charts. The author himself designed word clouds calculated from Z-scores; other visualizations were created based on available literature. Survey methodology was adapted from the study of comprehensibility of decision trees by Piltaver et al. (2016)* and included “classify”, “explain” and “validate” tasks, and three measures (correct answers, subjective comprehensibility, and time required). Hypotheses, the procedure, and planned analyses were pre-registered before data collection at osf.io, and participants were recruited via crowdsourcing. Based on responses from 188 participants, word clouds generated from Z-scores were found to produce the most comprehensible visualizations of textual data clusters.* PILTAVER, Rok, LUŠTREK, Mitja, GAMS, Matjaž and MARTINČIĆ-IPŠIĆ, Sanda. What makes classification trees comprehensible? Expert Systems with Applications. November 2016. Vol. 62, p. 333–346. DOI 10.1016/j.eswa.2016.06.009.
Klíčová slova: text mining; comprehensibility; Clustering; crowd sourcing; data mining; machine learning; Z-score; word cloud
Název práce: Evaluace srozumitelnosti pro shlukování textu
Autor(ka) práce: Žárský, Jiří
Typ práce: Diplomová práce
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Bahník, Štěpán
Jazyk práce: English
Abstrakt:
Diplomová práce má za cíl porovnat tři metody pro vizualizaci shluků textu (shlukování je metoda strojového učení bez učitele) za pomocí uživatelského průzkumu. Před vytvořením vizualizací je v práci provedena shluková analýza datové sady ze sociální sítě Twitter známé jako „Russian troll tweets“. Analýza je provedena dle metodiky CRISP-DM. Tři vizualizace zahrnují slovní mraky vypočítané z TD-IDF frekvencí nebo jejich Z-skóre a také Z-skóre prezentované jako sloupcové grafy. Autor sám navrhl vizualizaci, která zobrazuje slovní mraky vygenerované pomocí Z-skóre. Ostatní vizualizace byly vytvořeny na základě literatury. Metodologie průzkumu byla adaptována z Piltaver a kol. (2016)* a zahrnuje úkoly „classify“, „explain“ a „validate“ a tři metriky (správnost odpovědí, subjektivní srozumitelnost a potřebný čas). Hypotézy, procedura a plánovaná analýza byly registrovány před sběrem dat na platformě na osf.io. Respondenti byli získáni prostřednictvím crowdsourcingové platformy Prolific. Na základě odpovědí od 188 respondentů bylo zjištěno, že slovní mraky využívající Z-skóre jsou nejlépe srozumitelné vizualizace pro shluky textových dat.* PILTAVER, Rok, LUŠTREK, Mitja, GAMS, Matjaž and MARTINČIĆ-IPŠIĆ, Sanda. What makes classification trees comprehensible? Expert Systems with Applications. November 2016. Vol. 62, p. 333–346. DOI 10.1016/j.eswa.2016.06.009
Klíčová slova: srozumitelnost; dobývání znalostí z textu; shlukování; slovní mraky; strojové učení; Z-skóre; Crowd sourcing; dobývání znalostí

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační systémy a technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 25. 6. 2018
Datum podání práce: 30. 11. 2019
Datum obhajoby: 3. 2. 2020
Identifikátor v systému InSIS: https://insis.vse.cz/zp/66286/podrobnosti

Soubory ke stažení

    Poslední aktualizace: