Application of knowledge discovery in the insurance industry

Thesis title: Reálná úloha dobývání znalostí v pojišťovnictví
Author: Večerek, Jan
Thesis type: Diplomová práce
Supervisor: Berka, Petr
Opponents: Chudán, David
Thesis language: Česky
Abstract:
Diplomová práce řeší reálnou úlohu přiřazení pojistných událostí na likvidátory dle metod dobývání znalostí z databází. Cílem práce je zjištění, zda je možné využít dobývání znalostí z databází k řešení problému přiřazení pojistných událostí. Celý proces k dosažení cíle se řídí metodikou CRISP-DM a skládá se z následujících kroků: porozumění problematice, porozumění datům, příprava dat, modelování a využití modelů. První část práce je věnována teoretickému kontextu dobývání znalostí z databází. Součástí je popis metodiky CRISP-DM, představení úloh řešitelných pomocí dobývání znalostí a také modely pro řešení úlohy klasifikace. Spolu s modely jsou popsány i způsoby testování klasifikačních modelů a základy datové analýzy. Reálná úloha řeší problematiku přiřazení pojistných událostí na likvidátory v momentě zaregistrování pojistné událostí. Řešení úlohy je založeno na knihovnách programovacího jazyku Python a jsou využívány modely pro úlohu klasifikace jako jsou CART, RandomForest, ExtraTreesClassifier, Multilayer Perceptron, Logistická regrese, K-nejbližších sousedů a Support Vector Machines. Celkem je testováno 19 kombinací modelů na 4 různých datasetech, které byly vytvořeny na základě získaných reálných datech o pojistných událostech. Ze všech modelů se pro řešení dané klasifikační úlohy ukázaly jako nejvhodnější algoritmy pokročilých rozhodovacích stromů RandomForest a ExtraTreesClassifier.
Keywords: Dobývání znalostí z databází; dolování dat; strojové učení; klasifikace; pojistné události
Thesis title: Application of knowledge discovery in the insurance industry
Author: Večerek, Jan
Thesis type: Diploma thesis
Supervisor: Berka, Petr
Opponents: Chudán, David
Thesis language: Česky
Abstract:
This thesis deals with a real role of classifying claims to the appropriate solver done by a method of knowledge discovery. The aim of this thesis is to find the right solutions for data mining problem of classifying claims. CRISP-DM methodology is applied to a data mining process which contains business understanding, data understanding, data preparation, modelling and evaluation. This thesis is divided into two main parts – theoretical and practical. The first part presents theoretical framework of knowledge discovery including methodology CRISP-DM, data mining roles and data mining models for a classification role. The second part aims to classify claims to the specific insurance assessor at the moment of claim registration. The solution is based on libraries of programming language Python. Classification models such as CART, RandomForest, ExtraTreesClassifier, Multilayer Perceptron, Logistic regression, K-nearest neighbors and Support Vector Machines are applied. In total 19 models are tested on 4 different datasets containing real claims data. Two certain complex models, RandomForest and ExtraTreesClassifier, are considered to be the most suitable solutions for the classification role.
Keywords: Knowledge discovery in databases; data mining; insurance claims; machine learning; classification

Information about study

Study programme: Aplikovaná informatika/Podniková informatika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 2. 11. 2020
Date of submission: 30. 4. 2021
Date of defense: 2. 6. 2021
Identifier in the InSIS system: https://insis.vse.cz/zp/74962/podrobnosti

Files for download

    Last update: