Data Mining on Kickstarter Data
Thesis title: | Data mining na dátach Kickstarter |
---|---|
Author: | Sadecká, Mária |
Thesis type: | Bachelor thesis |
Supervisor: | Rauch, Jan |
Opponents: | Chudán, David |
Thesis language: | Slovensky |
Abstract: | Táto bakalárska práca sa zaoberá data miningom, čiže detailnou analýzou reálnych dát, ktorá je vykonaná pomocou hľadania odpovedí na zvolené analytické otázky. Dataset pochádza z webovej stránky Kaggle.com a popisuje projekty z platformy Kickstarter. Vybrané dáta sú analyzované v systéme LISp-Miner. Práca sa delí na teoretickú a praktickú časť. V teoretickej časti sa nachádzajú základné informácie o dobývaní znalostí z databáz (DZD) a data miningu, ktorý je súčasťou tohto procesu. Ďalej sú v tejto časti predstavené definície a história DZD a je bližšie predstavená metodika CRISP-DM a jej kroky, ktorými sa riadi aj spracovanie praktickej časti. V teoretickej časti je tiež popísaná pôvodná česká metóda GUHA, ktorá sa používa na exploračnú analýzu dát. Procedúry GUHA sú implementované v systéme LISp-Miner, v ktorom je vypracovaná analýza. V neposlednej rade sa v tejto časti nachádza aj popis systému LISp-Miner. V praktickej časti sú aplikované kroky DZD na vybraných dátach (od výberu dát až po interpretáciu výsledkov analýzy). Táto časť je vypracovaná v systéme LISp-Miner pomocou procedúr 4ft-Miner, CF-Miner, SD4ft-Miner, ktoré implementujú rovnomenné GUHA-procedúry. Pomocou vymenovaných procedúr sú riešené naformulované analytické otázky. Postup riešenia je detailne popísaný. Na záver sú výsledky a priebeh analýzy zhrnuté vrátane vyhodnotenia splnenia cieľov. Sú spomenuté aj problémy, ktoré sa počas práce objavili. |
Keywords: | data mining; dobývanie znalostí z databáz; DZD; CRISP-DM; LISp-Miner; 4ft-Miner; CF-Miner; SD4ft-Miner; Kickstarter |
Thesis title: | Data mining na datech Kickstarter |
---|---|
Author: | Sadecká, Mária |
Thesis type: | Bakalářská práce |
Supervisor: | Rauch, Jan |
Opponents: | Chudán, David |
Thesis language: | Slovensky |
Abstract: | Tato bakalářská práce se zabývá data miningem neboli detailní analýzou reálných dat, která je provedena pomocí hledání odpovědí na zvolené analytické otázky. Dataset pochází z webové stránky Kaggle.com a popisuje projekty z platformy Kickstarter. Vybrané data jsou analyzovány v systému LISp-Miner. Práce se dělí na teoretickou a praktickou část. V teoretické části se nacházejí základní informace o dobývání znalostí z databází (DZD) a data miningu, který je součástí tohoto procesu. Dále jsou v této části představeny definice a historie DZD a je blíže představena metodika CRISP-DM a její kroky, kterými se řídí i zpracování praktické části. V teoretické části je také popsána původní česká metoda GUHA, která se používá na explorační analýzu dat. Procedury GUHA jsou implementovány v systému LISp-Miner, v němž je vypracována analýza. V neposlední řadě se v této části nachází i popis systému LISp-Miner. V praktické části jsou aplikovány kroky DZD na vybraných datech (od výběru dat až po interpretaci výsledků analýzy). Tato část je vypracována v systému LISP-Miner pomocí procedur 4ft-Miner, CF-Miner, SD4ft-Miner, které implementují stejnojmenné GUHA-procedury. Pomocí vyjmenovaných procedur jsou řešeny formulované analytické otázky. Postup řešení je detailně popsán. Na závěr jsou výsledky a průběh analýzy shrnuty včetně vyhodnocení splnění cílů. Jsou zmíněny i problémy, které se během práce objevily. |
Keywords: | DZD; CRISP-DM; data mining; CF-Miner; SD4ft-Miner; Kickstarter; dobývání znalostí z databází; LISp-Miner; 4ft-Miner |
Thesis title: | Data Mining on Kickstarter Data |
---|---|
Author: | Sadecká, Mária |
Thesis type: | Bachelor thesis |
Supervisor: | Rauch, Jan |
Opponents: | Chudán, David |
Thesis language: | Slovensky |
Abstract: | This bachelor's thesis deals with data mining, which is a detailed analysis of real data, done by finding answers to chosen analytical questions. The dataset comes from the Kaggle.com website and describes projects from the Kickstarter platform. Selected data are analysed in the LISp-Miner system. The work is divided into theoretical and practical part. The theoretical part includes basic information about knowledge discovery in databases (KDD) and data mining, which is a part of this process. The theoretical part presents the definitions and history of KDD and introduces the CRISP-DM methodology and its steps, which is followed while working through the practical part. The theoretical part also describes the original Czech method GUHA, which is used for exploratory data analysis. GUHA procedures are implemented in the LISp-Miner system, in which the analysis is performed. Finally, this part also contains a description of the LISp-Miner system. In the practical part, the steps of KDD are applied to selected data (from data selection to interpretation of analysis results). This part is developed in the LISp-Miner system using 4ft-Miner, CF-Miner, and SD4ft-Miner procedures, which implement GUHA-procedures of the same name. The formulated analytical questions are solved using the previously mentioned procedures. The solution procedure is described in detail. Lastly, the results and the course of the analysis are summarized, including the evaluation of the fulfilment of objectives. Problems that arose in the process are also mentioned. |
Keywords: | KDD; CRISP-DM; 4ft-Miner; CF-Miner; SD4ft-Miner; Kickstarter; data mining; knowledge discovery in databases; LISp-Miner |
Information about study
Study programme: | Aplikovaná informatika/Aplikovaná informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 10. 6. 2020 |
---|---|
Date of submission: | 9. 5. 2021 |
Date of defense: | 22. 6. 2021 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/73514/podrobnosti |