Data mining on real data of an airline
Thesis title: | Data mining na reálných datech letecké společnosti |
---|---|
Author: | Zykán, Vojtěch |
Thesis type: | Bakalářská práce |
Supervisor: | Chudán, David |
Opponents: | Strnad, Pavel |
Thesis language: | Česky |
Abstract: | Tématem této práce je data mining, který se díky možnosti ukládání obrovských objemů dat stává nedílnou součástí fungování podniků. Cílem práce je tedy provést data mining na datech letecké společnosti a jeho využití pro zlepšení spokojenosti jejích pasažérů. V první části práce jsou popsána teoretická východiska, která jsou důležitá k pochopení části praktické. Nejvíce je zastoupen popis fází dobývání znalostí z databází dle metodiky CRISP-DM a následně popis využívané analytické metody. Druhá část práce je praktická a postupuje dle popsané metodiky CRISP-DM. V této části se nachází samotný data mining ve formě asociačních pravidel, clusteringu, rozhodovacích stromů, neuronových sítí a logistické regrese. Došel jsem k závěru, že letecká společnost by měla využít znalostí spolehlivých asociačních pravidel s vysokou podporou a zaměřit se na oblasti, které jsou v nich obsažené. Dále by také měla využít rozhodovací stromy, které jsou pro daný problém nejkvalitnější ze všech klasifikačních metod. Pro klasifikační úlohy byly tvořeny 2 modely. Jeden pokrývá celý dataset a druhý pokrývá pouze atributy, které je možné znát před nástupem do letadla. První model má správnost 95,5 % a druhý model 82,3 %. Rozhodovací stromy mají nejvyšší správnost pravděpodobně díky většímu množství kategoriálních proměnných v datasetu. |
Keywords: | CRISP-DM; data mining; dobývání znalostí z databází; asociační pravidla; rozhodovací stromy |
Thesis title: | Data mining on real data of an airline |
---|---|
Author: | Zykán, Vojtěch |
Thesis type: | Bachelor thesis |
Supervisor: | Chudán, David |
Opponents: | Strnad, Pavel |
Thesis language: | Česky |
Abstract: | The theme of this thesis is data mining which is becoming an integral part of businesses operations thanks to the possibility of storing large amounts of data. The aim of the thesis is to perform data mining on an airline’s data and its use to improve the satisfaction of its passengers. In the first part, there is described theoretical background, which is important for understanding the practical part. The most represented is description of knowledge discovery in databases phases according to CRISP-DM methodology and subsequently description of used analytical methods. The second part of the thesis is practical, and it follows described CRISP-DM methodology. This part contains data mining in the form of association rules, clustering, decision trees, neural networks, and logistic regression. I have concluded that the airline should use knowledge of confident rules with high support and focus on areas contained in rules. It should also use decision trees which are best of all classification methods for this problem. For the classification tasks I created two models. One covers the whole dataset and the second one covers only attributes that can be known before boarding the plane. First model has an accuracy of 95,5 % and the second one has an accuracy of 82,3 %. Decision trees have the highest accuracy probably due to the bigger number of categorical variables in the dataset. |
Keywords: | data mining; knowledge discovery in databases; CRISP-DM; association rules; decision trees |
Information about study
Study programme: | Aplikovaná informatika/Aplikovaná informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 21. 1. 2022 |
---|---|
Date of submission: | 9. 5. 2022 |
Date of defense: | 24. 6. 2022 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/79428/podrobnosti |