Data Mining on Kickstarter Data

Thesis title: Data mining na dátach Kickstarter
Author: Sadecká, Mária
Thesis type: Bachelor thesis
Supervisor: Rauch, Jan
Opponents: Chudán, David
Thesis language: Slovensky
Abstract:
Táto bakalárska práca sa zaoberá data miningom, čiže detailnou analýzou reálnych dát, ktorá je vykonaná pomocou hľadania odpovedí na zvolené analytické otázky. Dataset pochádza z webovej stránky Kaggle.com a popisuje projekty z platformy Kickstarter. Vybrané dáta sú analyzované v systéme LISp-Miner. Práca sa delí na teoretickú a praktickú časť. V teoretickej časti sa nachádzajú základné informácie o dobývaní znalostí z databáz (DZD) a data miningu, ktorý je súčasťou tohto procesu. Ďalej sú v tejto časti predstavené definície a história DZD a je bližšie predstavená metodika CRISP-DM a jej kroky, ktorými sa riadi aj spracovanie praktickej časti. V teoretickej časti je tiež popísaná pôvodná česká metóda GUHA, ktorá sa používa na exploračnú analýzu dát. Procedúry GUHA sú implementované v systéme LISp-Miner, v ktorom je vypracovaná analýza. V neposlednej rade sa v tejto časti nachádza aj popis systému LISp-Miner. V praktickej časti sú aplikované kroky DZD na vybraných dátach (od výberu dát až po interpretáciu výsledkov analýzy). Táto časť je vypracovaná v systéme LISp-Miner pomocou procedúr 4ft-Miner, CF-Miner, SD4ft-Miner, ktoré implementujú rovnomenné GUHA-procedúry. Pomocou vymenovaných procedúr sú riešené naformulované analytické otázky. Postup riešenia je detailne popísaný. Na záver sú výsledky a priebeh analýzy zhrnuté vrátane vyhodnotenia splnenia cieľov. Sú spomenuté aj problémy, ktoré sa počas práce objavili.
Keywords: data mining; dobývanie znalostí z databáz; DZD; CRISP-DM; LISp-Miner; 4ft-Miner; CF-Miner; SD4ft-Miner; Kickstarter
Thesis title: Data mining na datech Kickstarter
Author: Sadecká, Mária
Thesis type: Bakalářská práce
Supervisor: Rauch, Jan
Opponents: Chudán, David
Thesis language: Slovensky
Abstract:
Tato bakalářská práce se zabývá data miningem neboli detailní analýzou reálných dat, která je provedena pomocí hledání odpovědí na zvolené analytické otázky. Dataset pochází z webové stránky Kaggle.com a popisuje projekty z platformy Kickstarter. Vybrané data jsou analyzovány v systému LISp-Miner. Práce se dělí na teoretickou a praktickou část. V teoretické části se nacházejí základní informace o dobývání znalostí z databází (DZD) a data miningu, který je součástí tohoto procesu. Dále jsou v této části představeny definice a historie DZD a je blíže představena metodika CRISP-DM a její kroky, kterými se řídí i zpracování praktické části. V teoretické části je také popsána původní česká metoda GUHA, která se používá na explorační analýzu dat. Procedury GUHA jsou implementovány v systému LISp-Miner, v němž je vypracována analýza. V neposlední řadě se v této části nachází i popis systému LISp-Miner. V praktické části jsou aplikovány kroky DZD na vybraných datech (od výběru dat až po interpretaci výsledků analýzy). Tato část je vypracována v systému LISP-Miner pomocí procedur 4ft-Miner, CF-Miner, SD4ft-Miner, které implementují stejnojmenné GUHA-procedury. Pomocí vyjmenovaných procedur jsou řešeny formulované analytické otázky. Postup řešení je detailně popsán. Na závěr jsou výsledky a průběh analýzy shrnuty včetně vyhodnocení splnění cílů. Jsou zmíněny i problémy, které se během práce objevily.
Keywords: DZD; CRISP-DM; data mining; CF-Miner; SD4ft-Miner; Kickstarter; dobývání znalostí z databází; LISp-Miner; 4ft-Miner
Thesis title: Data Mining on Kickstarter Data
Author: Sadecká, Mária
Thesis type: Bachelor thesis
Supervisor: Rauch, Jan
Opponents: Chudán, David
Thesis language: Slovensky
Abstract:
This bachelor's thesis deals with data mining, which is a detailed analysis of real data, done by finding answers to chosen analytical questions. The dataset comes from the Kaggle.com website and describes projects from the Kickstarter platform. Selected data are analysed in the LISp-Miner system. The work is divided into theoretical and practical part. The theoretical part includes basic information about knowledge discovery in databases (KDD) and data mining, which is a part of this process. The theoretical part presents the definitions and history of KDD and introduces the CRISP-DM methodology and its steps, which is followed while working through the practical part. The theoretical part also describes the original Czech method GUHA, which is used for exploratory data analysis. GUHA procedures are implemented in the LISp-Miner system, in which the analysis is performed. Finally, this part also contains a description of the LISp-Miner system. In the practical part, the steps of KDD are applied to selected data (from data selection to interpretation of analysis results). This part is developed in the LISp-Miner system using 4ft-Miner, CF-Miner, and SD4ft-Miner procedures, which implement GUHA-procedures of the same name. The formulated analytical questions are solved using the previously mentioned procedures. The solution procedure is described in detail. Lastly, the results and the course of the analysis are summarized, including the evaluation of the fulfilment of objectives. Problems that arose in the process are also mentioned.
Keywords: KDD; CRISP-DM; 4ft-Miner; CF-Miner; SD4ft-Miner; Kickstarter; data mining; knowledge discovery in databases; LISp-Miner

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 10. 6. 2020
Date of submission: 9. 5. 2021
Date of defense: 22. 6. 2021
Identifier in the InSIS system: https://insis.vse.cz/zp/73514/podrobnosti

Files for download

    Last update: