Design and implementation of Data Mining model with MS SQL Server technology

Thesis title: Návrh a implementace Data Mining modelu v technologii MS SQL Server
Author: Peroutka, Lukáš
Thesis type: Diplomová práce
Supervisor: Maryška, Miloš
Opponents: Smutný, Zdeněk
Thesis language: Česky
Abstract:
Tato práce se zabývá návrhem a implementací data miningové úlohy s reálnými daty. Úloha bude analyzována, zpracována a její dosažené výsledky vyhodnoceny. Zdrojovým datovým souborem je databáze obsahující studijní záznamy Vysoké ško-le ekonomické v Praze. V první teoretické části se práce zaměřuje na dolování z dat, definici pojmu, histo-rický vývoj data miningu, analýzu a popis jednotlivých částí dolovací úlohy a sou-časnou metodologii. Představeny jsou nejznámější používané dolovací techniky a standardy, včetně jejich vlastností, výhod a nevýhod při praktickém nasazení. Ana-lyzována jsou také vstupní data, zejména z pohledu kvality a operací ve fázi před-zpracování dat pro dolovací úlohu. Následně je přistoupeno k aplikaci teoretických znalostí na reálnou úlohu data mi-ningu. Zdrojový soubor se školními daty je popsán, analyzován a vhodné atributy jsou vybrány jako základ pro tvorbu dolovacích modelů. Ty jsou poté na platformě MS SQL Server vytvořeny s cílem najít, prozkoumat a popsat možné závislosti a asociace v datech. Dílčí výsledky jednotlivých modelů a jejich potenciální přínos jsou zhodnoceny, a to včetně návrhu možných vylepšení a dalšího budoucího využití výsledků.
Keywords: CRISP-DM; Bayesovský klasifikátor; shluková analýza; rozhodovací stromy; neuronové sítě; Data mining; školní data; metody data miningu; analýza dat
Thesis title: Design and implementation of Data Mining model with MS SQL Server technology
Author: Peroutka, Lukáš
Thesis type: Diploma thesis
Supervisor: Maryška, Miloš
Opponents: Smutný, Zdeněk
Thesis language: Česky
Abstract:
This thesis focuses on design and implementation of a data mining solution with real-world data. The task is analysed, processed and its results evaluated. The mined data set contains study records of students from University of Economics, Prague (VŠE) over the course of past three years. First part of the thesis focuses on theory of data mining, definition of the term, history and development of this particular field. Current best practices and meth-odology are described, as well as methods for determining the quality of data and methods for data pre-processing ahead of the actual data mining task. The most common data mining techniques are introduced, including their basic concepts, advantages and disadvantages. The theoretical basis is then used to implement a concrete data mining solution with educational data. The source data set is described, analysed and some of the data are chosen as input for created models. The solution is based on MS SQL Server data mining platform and it's goal is to find, describe and analyse potential as-sociations and dependencies in data. Results of respective models are evaluated, including their potential added value. Also mentioned are possible extensions and suggestions for further development of the solution.
Keywords: data mining; clustering; decision trees; neural networks; data mining techniques; Bayes classification; CRISP-DM; educational data; data analysis

Information about study

Study programme: Aplikovaná informatika/Informační systémy a technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 1. 11. 2012
Date of submission: 3. 6. 2013
Date of defense: 4. 2. 2014
Identifier in the InSIS system: https://insis.vse.cz/zp/40659/podrobnosti

Files for download

    Last update: