Data mining na reálných datech letecké společnosti

Název práce: Data mining na reálných datech letecké společnosti
Autor(ka) práce: Zykán, Vojtěch
Typ práce: Bakalářská práce
Vedoucí práce: Chudán, David
Oponenti práce: Strnad, Pavel
Jazyk práce: Česky
Abstrakt:
Tématem této práce je data mining, který se díky možnosti ukládání obrovských objemů dat stává nedílnou součástí fungování podniků. Cílem práce je tedy provést data mining na datech letecké společnosti a jeho využití pro zlepšení spokojenosti jejích pasažérů. V první části práce jsou popsána teoretická východiska, která jsou důležitá k pochopení části praktické. Nejvíce je zastoupen popis fází dobývání znalostí z databází dle metodiky CRISP-DM a následně popis využívané analytické metody. Druhá část práce je praktická a postupuje dle popsané metodiky CRISP-DM. V této části se nachází samotný data mining ve formě asociačních pravidel, clusteringu, rozhodovacích stromů, neuronových sítí a logistické regrese. Došel jsem k závěru, že letecká společnost by měla využít znalostí spolehlivých asociačních pravidel s vysokou podporou a zaměřit se na oblasti, které jsou v nich obsažené. Dále by také měla využít rozhodovací stromy, které jsou pro daný problém nejkvalitnější ze všech klasifikačních metod. Pro klasifikační úlohy byly tvořeny 2 modely. Jeden pokrývá celý dataset a druhý pokrývá pouze atributy, které je možné znát před nástupem do letadla. První model má správnost 95,5 % a druhý model 82,3 %. Rozhodovací stromy mají nejvyšší správnost pravděpodobně díky většímu množství kategoriálních proměnných v datasetu.
Klíčová slova: CRISP-DM; data mining; dobývání znalostí z databází; asociační pravidla; rozhodovací stromy
Název práce: Data mining on real data of an airline
Autor(ka) práce: Zykán, Vojtěch
Typ práce: Bachelor thesis
Vedoucí práce: Chudán, David
Oponenti práce: Strnad, Pavel
Jazyk práce: Česky
Abstrakt:
The theme of this thesis is data mining which is becoming an integral part of businesses operations thanks to the possibility of storing large amounts of data. The aim of the thesis is to perform data mining on an airline’s data and its use to improve the satisfaction of its passengers. In the first part, there is described theoretical background, which is important for understanding the practical part. The most represented is description of knowledge discovery in databases phases according to CRISP-DM methodology and subsequently description of used analytical methods. The second part of the thesis is practical, and it follows described CRISP-DM methodology. This part contains data mining in the form of association rules, clustering, decision trees, neural networks, and logistic regression. I have concluded that the airline should use knowledge of confident rules with high support and focus on areas contained in rules. It should also use decision trees which are best of all classification methods for this problem. For the classification tasks I created two models. One covers the whole dataset and the second one covers only attributes that can be known before boarding the plane. First model has an accuracy of 95,5 % and the second one has an accuracy of 82,3 %. Decision trees have the highest accuracy probably due to the bigger number of categorical variables in the dataset.
Klíčová slova: data mining; knowledge discovery in databases; CRISP-DM; association rules; decision trees

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 21. 1. 2022
Datum podání práce: 9. 5. 2022
Datum obhajoby: 24. 6. 2022
Identifikátor v systému InSIS: https://insis.vse.cz/zp/79428/podrobnosti

Soubory ke stažení

    Poslední aktualizace: