Real data analysis to predict road traffic accidents
Thesis title: | Analýza reálnych dát s cieľom predikcie nehôd v cestnej doprave |
---|---|
Author: | Szücs, Juraj |
Thesis type: | Diploma thesis |
Supervisor: | Berka, Petr |
Opponents: | Kliegr, Tomáš |
Thesis language: | Slovensky |
Abstract: | Cieľom tejto práce bolo vytvorenie predikčných modelov závažnosti nehôd pre Českú republiku a Veľkú Britániu. Sekundárnym cieľom bolo porovnanie modelov a zistenie ich spoločných a rozdielnych charakteristík. Práca je rozdelená na 2 časti, a to teoretickú a praktickú. V teoretickej časti bol predstavená oblasť dolovania znalostí a úlohy, ktoré pod ňu patria a ktoré sa snaží riešiť. Ďalej bola predstavená metodika dolovania znalostí CRISP-DM a jej jednotlivé fázy. Ako posledné boli predstavené metódy a techniky, ktoré sú vhodné pre úlohu predikcie a ich detailnejší pocit a princípy, na ktorých sú založené. V praktickej časti bola riešená reálna úloha podľa metodiky CRISP-DM. Boli rozpísané všetky fázy a činnosti, ktoré sa vykonali, od porozumenia problematike až po využitie výsledkov. Úloha bola riešená v nástroji Rapidminer. Vo fáze modelovania boli zvolené 4 modelovacie techniky a následne bolo vytvorených 8 modelov, 4 pre každú krajinu. Z týchto modelov boli vybrané 2 najlepšie, 1 pre každú krajinu. Ako najlepšie sa v prípade britských dát ukázal model rozhodovacieho stromu. V prípade českých dát sa ukázali ako najlepšie modely neurónovej siete a logistickej regresie, ktoré však boli až príliš dobré. Pravdepodobne pri týchto modeloch došlo k preučeniu a preto sa ako vhodnejší model pre predikciu závažnosti nehody v Českej republike javí model naivného Bayesovského klasifikátoru. V prípade britských dát sa ukázal ako najlepší model rozhodovacieho stromu. Modely boli následne porovnané a boli zistené spoločné a rozdielne charakteristiky. V poslednej fáze bolo navrhnuté využitie výsledkov v praxi vo forme doporučení. |
Keywords: | dolovanie znalostí z databáz; data mining; predikcia; dopravné nehody; RapidMiner; CRISP-DM |
Thesis title: | Real data analysis to predict road traffic accidents |
---|---|
Author: | Szücs, Juraj |
Thesis type: | Diploma thesis |
Supervisor: | Berka, Petr |
Opponents: | Kliegr, Tomáš |
Thesis language: | Slovensky |
Abstract: | The main aim of this thesis is to create a predictive models of car accident severity for countries of Czech Republic and United Kingdom. Secondary goal is to compare created models and identifying differences and similarities between them. This work is divided into 2 part, theoretical and practical. The area of discovering knowledge in data and tasks that are part of this area are introduced in the theoretical part. Furthermore, a standard for discovering knowledge in data, called CRISP-DM is introduced as well as its phases. In addition, methods and techniques for creating prediction models are introduced in the last section of this part. The practical part is focused on solving real task according to CRISP-DM methodology. All phases that were performed were described, from Business Understanding to Deployment. In the modelling phase, 4 modelling techniques were selected and subsequently, a total of 8 models, 4 for each country were created, and the best model for each country was selected. In the case of Czech accidents, models of the neural network and logistic regression proved to be the best. However, these models seem to be overfitted and therefore the model of naïve Bayesian classifier appears to be a more suitable alternative. In the case of British accidents, the decision tree model proved to be the best. Afterwards, the models were compared to determine common and different traits. In the last phase the real-world use of the models was proposed. |
Keywords: | prediction; traffic accidents; RapidMiner; CRISP-DM; data mining; knowledge discovery in databases |
Thesis title: | Analýza reálných dat s cílem predikce nehod v silniční dopravě |
---|---|
Author: | Szücs, Juraj |
Thesis type: | Diplomová práce |
Supervisor: | Berka, Petr |
Opponents: | Kliegr, Tomáš |
Thesis language: | Slovensky |
Abstract: | Cílem této práce bylo vyvinout modely předpovědi závažnosti nehod pro Českou republiku a Velkou Británii. Sekundárním cílem bylo porovnat modely a určit jejich společné a rozdílné charakteristiky. Práce je rozdělena na 2 části, a to teoretickou a praktickou. Teoretická část představila oblast dolování znalostí a úkoly, které do ní spadají a které se snaží řešit. Dále byla představena metodika dolování znalostí CRISP-DM a její jednotlivé fáze. Nakonec byly představeny metody a techniky, které jsou vhodné pro predikční úlohu, a jejich podrobnější pojetí a principy, na nichž jsou založeny. V praktické části byl řešen reálný problém podle metodiky CRISP-DM. Byly popsány všechny fáze a činnosti, které byly provedeny, od pochopení problému až po využití výsledků. Problém byl vyřešen v aplikaci Rapidminer. Ve fázi modelování byly vybrány 4 modelovací techniky a následně bylo vytvořeno 8 modelů, 4 pro každou zemi. Z těchto modelů byly vybrány 2 nejlepší, 1 pro každou zemi. Model rozhodovacího stromu se ukázal jako nejlepší pro data Spojeného království. Pro česká data se jako nejlepší ukázaly modely neuronové sítě a logistické regrese, které však byly příliš dobré. U těchto modelů pravděpodobně došlo k přeučení, a proto se jako vhodnější model pro predikci závažnosti nehod v České republice jeví naivní bayesovský klasifikační model. V případě údajů Spojeného království se jako nejlepší ukázal model rozhodovacího stromu. Modely byly následně porovnány a byly zjištěny společné a rozdílné charakteristiky. V poslední fázi bylo navrženo využití výsledků v praxi formou doporučení. |
Keywords: | data mining; predikce; dobývání znalostí z databází; dopravní nehody; RapidMiner; CRISP-DM |
Information about study
Study programme: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 2. 11. 2020 |
---|---|
Date of submission: | 3. 5. 2021 |
Date of defense: | 10. 6. 2021 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/74963/podrobnosti |