Application of knowledge discovery in the insurance industry
Thesis title: | Reálná úloha dobývání znalostí v pojišťovnictví |
---|---|
Author: | Večerek, Jan |
Thesis type: | Diplomová práce |
Supervisor: | Berka, Petr |
Opponents: | Chudán, David |
Thesis language: | Česky |
Abstract: | Diplomová práce řeší reálnou úlohu přiřazení pojistných událostí na likvidátory dle metod dobývání znalostí z databází. Cílem práce je zjištění, zda je možné využít dobývání znalostí z databází k řešení problému přiřazení pojistných událostí. Celý proces k dosažení cíle se řídí metodikou CRISP-DM a skládá se z následujících kroků: porozumění problematice, porozumění datům, příprava dat, modelování a využití modelů. První část práce je věnována teoretickému kontextu dobývání znalostí z databází. Součástí je popis metodiky CRISP-DM, představení úloh řešitelných pomocí dobývání znalostí a také modely pro řešení úlohy klasifikace. Spolu s modely jsou popsány i způsoby testování klasifikačních modelů a základy datové analýzy. Reálná úloha řeší problematiku přiřazení pojistných událostí na likvidátory v momentě zaregistrování pojistné událostí. Řešení úlohy je založeno na knihovnách programovacího jazyku Python a jsou využívány modely pro úlohu klasifikace jako jsou CART, RandomForest, ExtraTreesClassifier, Multilayer Perceptron, Logistická regrese, K-nejbližších sousedů a Support Vector Machines. Celkem je testováno 19 kombinací modelů na 4 různých datasetech, které byly vytvořeny na základě získaných reálných datech o pojistných událostech. Ze všech modelů se pro řešení dané klasifikační úlohy ukázaly jako nejvhodnější algoritmy pokročilých rozhodovacích stromů RandomForest a ExtraTreesClassifier. |
Keywords: | Dobývání znalostí z databází; dolování dat; strojové učení; klasifikace; pojistné události |
Thesis title: | Application of knowledge discovery in the insurance industry |
---|---|
Author: | Večerek, Jan |
Thesis type: | Diploma thesis |
Supervisor: | Berka, Petr |
Opponents: | Chudán, David |
Thesis language: | Česky |
Abstract: | This thesis deals with a real role of classifying claims to the appropriate solver done by a method of knowledge discovery. The aim of this thesis is to find the right solutions for data mining problem of classifying claims. CRISP-DM methodology is applied to a data mining process which contains business understanding, data understanding, data preparation, modelling and evaluation. This thesis is divided into two main parts – theoretical and practical. The first part presents theoretical framework of knowledge discovery including methodology CRISP-DM, data mining roles and data mining models for a classification role. The second part aims to classify claims to the specific insurance assessor at the moment of claim registration. The solution is based on libraries of programming language Python. Classification models such as CART, RandomForest, ExtraTreesClassifier, Multilayer Perceptron, Logistic regression, K-nearest neighbors and Support Vector Machines are applied. In total 19 models are tested on 4 different datasets containing real claims data. Two certain complex models, RandomForest and ExtraTreesClassifier, are considered to be the most suitable solutions for the classification role. |
Keywords: | Knowledge discovery in databases; data mining; insurance claims; machine learning; classification |
Information about study
Study programme: | Aplikovaná informatika/Podniková informatika |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 2. 11. 2020 |
---|---|
Date of submission: | 30. 4. 2021 |
Date of defense: | 2. 6. 2021 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/74962/podrobnosti |