Data mining na reálných datech

Název práce: Data mining na reálných datech
Autor(ka) práce: Švugerová, Johanna
Typ práce: Bakalářská práce
Vedoucí práce: Chudán, David
Oponenti práce: Rauch, Jan
Jazyk práce: Česky
Abstrakt:
Cílem této práce je nalezení zajímavých vztahů v množině reálných dat pomocí data miningu, a to hledáním odpovědí na zadané analytické otázky. K analýze byl zvolen dataset popisující realitní trh v Rusku, jenž byl získán na platformě Kaggle.com zabývající se problematikou zpracování dat. Celá práce se dělí na teoretickou a praktickou část.Teoretická část shrnuje dostupné základní informace o data miningu, respektive o procesu dobývání znalostí z databází (DZD), jehož je data mining součástí. Čtenář je zde seznámen s definicemi, historií této disciplíny a nejpoužívanějšími metodikami, především s metodikou CRISP-DM určující kroky, podle nichž je zpracována praktická část. Dále je zde představena původní česká metoda GUHA pro explorační analýzu dat. Její procedury implementuje systém LISp-Miner, který je v praktické části využit k analýze. Jeho charakteristika je také součástí teoretické části. Praktická část popisuje krok po kroku celý proces DZD na zvolených reálných datech - od výběru dat až po samotné analytické procedury a interpretaci získaných výsledků. Pro práci s daty byl využit akademický nástroj LISp-Miner. K zodpovězení formulovaných analytických otázek byly vybrány moduly CF-Miner a KL-Miner implementující stejnojmenné GUHA-procedury. Závěrem jsou vyhodnoceny získané výsledky a shrnut celkový průběh analýzy včetně míry naplnění cílů a problémů, jež se během práce vyskytly.
Klíčová slova: data mining; DZD; LISp-Miner; CF-Miner; KL-Miner; realitní trh
Název práce: Data mining on real data
Autor(ka) práce: Švugerová, Johanna
Typ práce: Bachelor thesis
Vedoucí práce: Chudán, David
Oponenti práce: Rauch, Jan
Jazyk práce: Česky
Abstrakt:
The aim of this bachelor's thesis is to find interesting relationships in a set of real data by using techniques of data mining. This is achieved by searching for answers to given analytical questions. The analysis was based on a dataset describing the housing market in Russia. The data were obtained from Kaggle.com, which is a platform focused on data processing. The whole work is divided into theoretical and practical part.The theoretical part summarizes available basic information about data mining and process of knowledge discovery in databases (KDD), which data mining is a part of. The definitions, history of this discipline and the most used methodologies, especially the CRISP-DM methodology, which determines the steps according to which the practical part is performed, are introduced to the reader. Furthermore, the GUHA method, original Czech method for exploratory data analysis, is presented. Its procedures are implemented by the LISp-Miner system, which is used for analysis in the practical part of the thesis. Its description is also part of the theoretical part.The practical part describes the whole process of DZD on selected real data step by step - from data selection to analytical procedures and interpretation of the results. The academic tool LISp-Miner was used for working with the data. The CF-Miner and KL-Miner were chosen as modules to answer the formulated analytical questions. These modules implement the GUHA procedures of the same name. In conclusion, the obtained results are interpreted, and the whole analysis is summarized, including the extent to which the objectives were met and problems encountered during the work.
Klíčová slova: data mining; KDD; LISp-Miner; CF-Miner; KL-Miner; housing market

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 31. 1. 2019
Datum podání práce: 6. 5. 2019
Datum obhajoby: 11. 6. 2019
Identifikátor v systému InSIS: https://insis.vse.cz/zp/68464/podrobnosti

Soubory ke stažení

    Poslední aktualizace: