Evaluace srozumitelnosti shlukování

Název práce: Evaluácia zrozumiteľnosti zhlukovania
Autor(ka) práce: Genský, Oliver
Typ práce: Diplomová práce
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Berka, Petr
Jazyk práce: Slovensky
Abstrakt:
Diplomová práca sa zaoberá zrozumiteľnosťou vybraných vizualizácií zhlukov, ktoré sú výstupom zhlukovej analýzy. Tento druh analýzy spadá pod dolovanie dát bez učiteľa. V rešeršnej časti práce sú predstavené všetky pojmy, metódy a techniky, ktoré sú následne aplikované pri riešení data miningovej úlohy. Pre získanie vizualizácií k ohodnoteniu je v súlade s metodikou CRISP-DM v analytickej časti vykonané zhlukovanie. Vstupnými dátami pre túto analýzu sú voľne dostupné behaviorálne dáta zákazníkov telekomunikačnej spoločnosti. Celá technická časť analýzy je vykonaná v softvérovom prostredí R s využitím tabuľkového procesora Excel pre lepšie zobrazenie tabuliek. Výstupom fázy "ohodnotenie" je jeden model a jeho štyri vizualizácie, ktorými sú Heatmapa, graf Z skóre, graf priemerov a rozhodovací strom. Cieľom práce je overiť zrozumiteľnosť týchto vizualizácií a to pomocou nedávno predstavenej metriky, ktorá bola navrhnutá s cieľom využiť takú definíciu zrozumiteľnosti, ktorá lepšie odráža ľudský zmysel porozumenia vizualizácie. Do jej predstavenia využívala väčšina používaných metrík zrozumiteľnosti komplexitu modelu ako merítko náročnosti porozumenia. Metodicky práca vychádza zo štúdie na zrozumiteľnosť rozhodovacích stromov od Roka Piltavera. Užívateľskej štúdie v tejto diplomovej práci sa zúčastnilo 55 študentov. Jedným z viacerých zistení porovnávania vizualizácií je, že rozhodovací strom nie je subjektívne vnímaný ako zrozumiteľný, ale bolo pomocou neho dosiahnuté najlepších celkových výsledkov zodpovedania dotazníka a teda bol najzrozumiteľnejší. Za nóvum práce sa dá pokladať aplikácia tejto novej metriky zrozumiteľnosti v rámci úlohy data miningu bez učiteľa, kde doteraz aplikovaná nebola. Prínosom je tiež porovnávanie odlišných typov vizualizácií s využitím tejto metriky.
Klíčová slova: dolovanie dát; segmentácia; telekomunikácie; vizualizácia; zhlukovanie; zrozumiteľnosť
Název práce: Evaluace srozumitelnosti shlukování
Autor(ka) práce: Genský, Oliver
Typ práce: Diplomová práce
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Berka, Petr
Jazyk práce: Slovensky
Abstrakt:
Diplomová práce se zabývá srozumitelností vybraných vizualizací shluků, které jsou výstupem shlukové analýzy. Tento druh analýzy spadá pod dolování dat bez učitele. V rešeršní části práce jsou představeny všechny pojmy, metody a techniky, které jsou následně aplikovány při řešení data miningového úkolu. Pro získání vizualizací k ohodnocení je v souladu s metodikou CRISP-DM v analytické části provedeno shlukování. Vstupními daty pro tuto analýzu jsou volně dostupná behaviorální data zákazníků telekomunikační společnosti. Celá technická část analýzy je provedena v softwarovém prostředí R s využitím tabulkového procesoru Excel pro lepší zobrazení tabulek. Výstupem fáze "ohodnocení" je jeden model a jeho čtyři vizualizace, kterými jsou Heatmapa, graf Z skóre, graf průměrů a rozhodovací strom. Cílem práce je ověřit srozumitelnost těchto vizualizací a to pomocí nedávno představené metriky, která byla navržena s cílem využít takovou definici srozumitelnosti, která lépe odráží lidský smysl porozumění vizualizace. Do jejího představení využívala většina používaných metrik srozumitelnosti komplexitu modelu jako měřítko náročnosti porozumění. Metodicky se vychází ze studie na srozumitelnost rozhodovacích stromů od Roka Piltavera. Uživatelské studie v této diplomové práci se zúčastnilo 55 studentů. Jedním z vícera zjištění porovnávání vizualizací je, že rozhodovací strom není subjektivně vnímán jako srozumitelný, ale bylo pomocí něho dosaženo nejlepších celkových výsledků zodpovězení dotazníku a tudíž byl nejsrozumitelnější. Za novum práce se dá pokládat aplikace této nové metriky srozumitelnosti v rámci úkolu data miningu bez učitele, kde dosud aplikována nebyla. Přínosem je rovněž porovnávání odlišných typů vizualizací s využitím této metriky.
Klíčová slova: dolování dat; segmentace; shlukování; srozumitelnost; telekomunikace; vizualizace
Název práce: Evaluation of cluster comprehensibility
Autor(ka) práce: Genský, Oliver
Typ práce: Diploma thesis
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Berka, Petr
Jazyk práce: Slovensky
Abstrakt:
This diploma thesis focuses on the comprehensibility of selected cluster visualizations, which are the output of cluster analysis. This type of analysis falls under the unsupervised data mining tasks. In the literature review, all concepts, methods and techniques, which are subsequently applied to solve the data mining task, are presented. To obtain visualizations for the evaluation, clustering must be performed in the analytical part. This data mining task is performed in accordance with the CRISP DM methodology. Input data for analysis are behavioral data of the telecommunication company's customers. The entire technical part of the analysis is performed in the R software environment, with support of Excel spreadsheet for better visualization using tables. The output of the "evaluation" phase is one clustering model and its four visualizations, namely, Heatmap, Z Score plot, Averages plot and the Decision Tree. The comprehensibility of these visualizations is measured and compared by a recently introduced metric that has been designed to reflect the human sense of visualization comprehensibility. Most of the commonly used metrics are using complexity of the model as a measure of difficulty to comprehend. Evaluation phase of the thesis is methodically based on the study about the Decision Tree comprehensibility by Rok Piltaver. The specially designed survey in this diploma thesis was taken of 55 university students. One of many findings of the comparisons is that the Decision Tree is out of four visualizations subjectively perceived as least comprehensible, however, it has achieved the best overall results in the test based questionnaire and thus had been most comprehensible. The contribution of this thesis is applying this new metric to the unsupervised data mining task, where it has not yet been applied. As a novelty, at least within this metric, a comparison of different types of visualizations can be considered.
Klíčová slova: clustering; comprehensibility; data mining; segmentation; telecommunications; visualization

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační systémy a technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 24. 9. 2018
Datum podání práce: 27. 11. 2018
Datum obhajoby: 28. 1. 2019
Identifikátor v systému InSIS: https://insis.vse.cz/zp/66868/podrobnosti

Soubory ke stažení

    Poslední aktualizace: