Design and implementation of Data Mining model with MS SQL Server technology
Thesis title: | Návrh a implementace Data Mining modelu v technologii MS SQL Server |
---|---|
Author: | Peroutka, Lukáš |
Thesis type: | Diplomová práce |
Supervisor: | Maryška, Miloš |
Opponents: | Smutný, Zdeněk |
Thesis language: | Česky |
Abstract: | Tato práce se zabývá návrhem a implementací data miningové úlohy s reálnými daty. Úloha bude analyzována, zpracována a její dosažené výsledky vyhodnoceny. Zdrojovým datovým souborem je databáze obsahující studijní záznamy Vysoké ško-le ekonomické v Praze. V první teoretické části se práce zaměřuje na dolování z dat, definici pojmu, histo-rický vývoj data miningu, analýzu a popis jednotlivých částí dolovací úlohy a sou-časnou metodologii. Představeny jsou nejznámější používané dolovací techniky a standardy, včetně jejich vlastností, výhod a nevýhod při praktickém nasazení. Ana-lyzována jsou také vstupní data, zejména z pohledu kvality a operací ve fázi před-zpracování dat pro dolovací úlohu. Následně je přistoupeno k aplikaci teoretických znalostí na reálnou úlohu data mi-ningu. Zdrojový soubor se školními daty je popsán, analyzován a vhodné atributy jsou vybrány jako základ pro tvorbu dolovacích modelů. Ty jsou poté na platformě MS SQL Server vytvořeny s cílem najít, prozkoumat a popsat možné závislosti a asociace v datech. Dílčí výsledky jednotlivých modelů a jejich potenciální přínos jsou zhodnoceny, a to včetně návrhu možných vylepšení a dalšího budoucího využití výsledků. |
Keywords: | CRISP-DM; Bayesovský klasifikátor; shluková analýza; rozhodovací stromy; neuronové sítě; Data mining; školní data; metody data miningu; analýza dat |
Thesis title: | Design and implementation of Data Mining model with MS SQL Server technology |
---|---|
Author: | Peroutka, Lukáš |
Thesis type: | Diploma thesis |
Supervisor: | Maryška, Miloš |
Opponents: | Smutný, Zdeněk |
Thesis language: | Česky |
Abstract: | This thesis focuses on design and implementation of a data mining solution with real-world data. The task is analysed, processed and its results evaluated. The mined data set contains study records of students from University of Economics, Prague (VŠE) over the course of past three years. First part of the thesis focuses on theory of data mining, definition of the term, history and development of this particular field. Current best practices and meth-odology are described, as well as methods for determining the quality of data and methods for data pre-processing ahead of the actual data mining task. The most common data mining techniques are introduced, including their basic concepts, advantages and disadvantages. The theoretical basis is then used to implement a concrete data mining solution with educational data. The source data set is described, analysed and some of the data are chosen as input for created models. The solution is based on MS SQL Server data mining platform and it's goal is to find, describe and analyse potential as-sociations and dependencies in data. Results of respective models are evaluated, including their potential added value. Also mentioned are possible extensions and suggestions for further development of the solution. |
Keywords: | data mining; clustering; decision trees; neural networks; data mining techniques; Bayes classification; CRISP-DM; educational data; data analysis |
Information about study
Study programme: | Aplikovaná informatika/Informační systémy a technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information Technologies |
Information on submission and defense
Date of assignment: | 1. 11. 2012 |
---|---|
Date of submission: | 3. 6. 2013 |
Date of defense: | 4. 2. 2014 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/40659/podrobnosti |