Data mining on real data of an airline

Thesis title: Data mining na reálných datech letecké společnosti
Author: Zykán, Vojtěch
Thesis type: Bakalářská práce
Supervisor: Chudán, David
Opponents: Strnad, Pavel
Thesis language: Česky
Abstract:
Tématem této práce je data mining, který se díky možnosti ukládání obrovských objemů dat stává nedílnou součástí fungování podniků. Cílem práce je tedy provést data mining na datech letecké společnosti a jeho využití pro zlepšení spokojenosti jejích pasažérů. V první části práce jsou popsána teoretická východiska, která jsou důležitá k pochopení části praktické. Nejvíce je zastoupen popis fází dobývání znalostí z databází dle metodiky CRISP-DM a následně popis využívané analytické metody. Druhá část práce je praktická a postupuje dle popsané metodiky CRISP-DM. V této části se nachází samotný data mining ve formě asociačních pravidel, clusteringu, rozhodovacích stromů, neuronových sítí a logistické regrese. Došel jsem k závěru, že letecká společnost by měla využít znalostí spolehlivých asociačních pravidel s vysokou podporou a zaměřit se na oblasti, které jsou v nich obsažené. Dále by také měla využít rozhodovací stromy, které jsou pro daný problém nejkvalitnější ze všech klasifikačních metod. Pro klasifikační úlohy byly tvořeny 2 modely. Jeden pokrývá celý dataset a druhý pokrývá pouze atributy, které je možné znát před nástupem do letadla. První model má správnost 95,5 % a druhý model 82,3 %. Rozhodovací stromy mají nejvyšší správnost pravděpodobně díky většímu množství kategoriálních proměnných v datasetu.
Keywords: CRISP-DM; data mining; dobývání znalostí z databází; asociační pravidla; rozhodovací stromy
Thesis title: Data mining on real data of an airline
Author: Zykán, Vojtěch
Thesis type: Bachelor thesis
Supervisor: Chudán, David
Opponents: Strnad, Pavel
Thesis language: Česky
Abstract:
The theme of this thesis is data mining which is becoming an integral part of businesses operations thanks to the possibility of storing large amounts of data. The aim of the thesis is to perform data mining on an airline’s data and its use to improve the satisfaction of its passengers. In the first part, there is described theoretical background, which is important for understanding the practical part. The most represented is description of knowledge discovery in databases phases according to CRISP-DM methodology and subsequently description of used analytical methods. The second part of the thesis is practical, and it follows described CRISP-DM methodology. This part contains data mining in the form of association rules, clustering, decision trees, neural networks, and logistic regression. I have concluded that the airline should use knowledge of confident rules with high support and focus on areas contained in rules. It should also use decision trees which are best of all classification methods for this problem. For the classification tasks I created two models. One covers the whole dataset and the second one covers only attributes that can be known before boarding the plane. First model has an accuracy of 95,5 % and the second one has an accuracy of 82,3 %. Decision trees have the highest accuracy probably due to the bigger number of categorical variables in the dataset.
Keywords: data mining; knowledge discovery in databases; CRISP-DM; association rules; decision trees

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 21. 1. 2022
Date of submission: 9. 5. 2022
Date of defense: 24. 6. 2022
Identifier in the InSIS system: https://insis.vse.cz/zp/79428/podrobnosti

Files for download

    Last update: