Analýza reálných dat s cílem predikce nehod v silniční dopravě

Název práce: Analýza reálnych dát s cieľom predikcie nehôd v cestnej doprave
Autor(ka) práce: Szücs, Juraj
Typ práce: Diplomová práce
Vedoucí práce: Berka, Petr
Oponenti práce: Kliegr, Tomáš
Jazyk práce: Slovensky
Abstrakt:
Cieľom tejto práce bolo vytvorenie predikčných modelov závažnosti nehôd pre Českú republiku a Veľkú Britániu. Sekundárnym cieľom bolo porovnanie modelov a zistenie ich spoločných a rozdielnych charakteristík. Práca je rozdelená na 2 časti, a to teoretickú a praktickú. V teoretickej časti bol predstavená oblasť dolovania znalostí a úlohy, ktoré pod ňu patria a ktoré sa snaží riešiť. Ďalej bola predstavená metodika dolovania znalostí CRISP-DM a jej jednotlivé fázy. Ako posledné boli predstavené metódy a techniky, ktoré sú vhodné pre úlohu predikcie a ich detailnejší pocit a princípy, na ktorých sú založené. V praktickej časti bola riešená reálna úloha podľa metodiky CRISP-DM. Boli rozpísané všetky fázy a činnosti, ktoré sa vykonali, od porozumenia problematike až po využitie výsledkov. Úloha bola riešená v nástroji Rapidminer. Vo fáze modelovania boli zvolené 4 modelovacie techniky a následne bolo vytvorených 8 modelov, 4 pre každú krajinu. Z týchto modelov boli vybrané 2 najlepšie, 1 pre každú krajinu. Ako najlepšie sa v prípade britských dát ukázal model rozhodovacieho stromu. V prípade českých dát sa ukázali ako najlepšie modely neurónovej siete a logistickej regresie, ktoré však boli až príliš dobré. Pravdepodobne pri týchto modeloch došlo k preučeniu a preto sa ako vhodnejší model pre predikciu závažnosti nehody v Českej republike javí model naivného Bayesovského klasifikátoru. V prípade britských dát sa ukázal ako najlepší model rozhodovacieho stromu. Modely boli následne porovnané a boli zistené spoločné a rozdielne charakteristiky. V poslednej fáze bolo navrhnuté využitie výsledkov v praxi vo forme doporučení.
Klíčová slova: dolovanie znalostí z databáz; data mining; predikcia; dopravné nehody; RapidMiner; CRISP-DM
Název práce: Real data analysis to predict road traffic accidents
Autor(ka) práce: Szücs, Juraj
Typ práce: Diploma thesis
Vedoucí práce: Berka, Petr
Oponenti práce: Kliegr, Tomáš
Jazyk práce: Slovensky
Abstrakt:
The main aim of this thesis is to create a predictive models of car accident severity for countries of Czech Republic and United Kingdom. Secondary goal is to compare created models and identifying differences and similarities between them. This work is divided into 2 part, theoretical and practical. The area of discovering knowledge in data and tasks that are part of this area are introduced in the theoretical part. Furthermore, a standard for discovering knowledge in data, called CRISP-DM is introduced as well as its phases. In addition, methods and techniques for creating prediction models are introduced in the last section of this part. The practical part is focused on solving real task according to CRISP-DM methodology. All phases that were performed were described, from Business Understanding to Deployment. In the modelling phase, 4 modelling techniques were selected and subsequently, a total of 8 models, 4 for each country were created, and the best model for each country was selected. In the case of Czech accidents, models of the neural network and logistic regression proved to be the best. However, these models seem to be overfitted and therefore the model of naïve Bayesian classifier appears to be a more suitable alternative. In the case of British accidents, the decision tree model proved to be the best. Afterwards, the models were compared to determine common and different traits. In the last phase the real-world use of the models was proposed.
Klíčová slova: prediction; traffic accidents; RapidMiner; CRISP-DM; data mining; knowledge discovery in databases
Název práce: Analýza reálných dat s cílem predikce nehod v silniční dopravě
Autor(ka) práce: Szücs, Juraj
Typ práce: Diplomová práce
Vedoucí práce: Berka, Petr
Oponenti práce: Kliegr, Tomáš
Jazyk práce: Slovensky
Abstrakt:
Cílem této práce bylo vyvinout modely předpovědi závažnosti nehod pro Českou republiku a Velkou Británii. Sekundárním cílem bylo porovnat modely a určit jejich společné a rozdílné charakteristiky. Práce je rozdělena na 2 části, a to teoretickou a praktickou. Teoretická část představila oblast dolování znalostí a úkoly, které do ní spadají a které se snaží řešit. Dále byla představena metodika dolování znalostí CRISP-DM a její jednotlivé fáze. Nakonec byly představeny metody a techniky, které jsou vhodné pro predikční úlohu, a jejich podrobnější pojetí a principy, na nichž jsou založeny. V praktické části byl řešen reálný problém podle metodiky CRISP-DM. Byly popsány všechny fáze a činnosti, které byly provedeny, od pochopení problému až po využití výsledků. Problém byl vyřešen v aplikaci Rapidminer. Ve fázi modelování byly vybrány 4 modelovací techniky a následně bylo vytvořeno 8 modelů, 4 pro každou zemi. Z těchto modelů byly vybrány 2 nejlepší, 1 pro každou zemi. Model rozhodovacího stromu se ukázal jako nejlepší pro data Spojeného království. Pro česká data se jako nejlepší ukázaly modely neuronové sítě a logistické regrese, které však byly příliš dobré. U těchto modelů pravděpodobně došlo k přeučení, a proto se jako vhodnější model pro predikci závažnosti nehod v České republice jeví naivní bayesovský klasifikační model. V případě údajů Spojeného království se jako nejlepší ukázal model rozhodovacího stromu. Modely byly následně porovnány a byly zjištěny společné a rozdílné charakteristiky. V poslední fázi bylo navrženo využití výsledků v praxi formou doporučení.
Klíčová slova: data mining; predikce; dobývání znalostí z databází; dopravní nehody; RapidMiner; CRISP-DM

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 2. 11. 2020
Datum podání práce: 3. 5. 2021
Datum obhajoby: 10. 6. 2021
Identifikátor v systému InSIS: https://insis.vse.cz/zp/74963/podrobnosti

Soubory ke stažení

    Poslední aktualizace: