Generalized Linear Model Using Neural Networks for Predicting the Number of Claim Events

Thesis title: Zobecněný lineární model s využitím neuronových sítí pro predikci počtu škodních událostí
Author: Vít, Ondřej
Thesis type: Diplomová práce
Supervisor: Štěpánek, Lubomír
Opponents: -
Thesis language: Česky
Abstract:
Škodní frekvence je spolu s výší škody důležitou součástí odhadu rizika v oboru pojišťovnictví. Na vhodných datech si klademe za cíl porovnat tradiční statistické metody, zejména zobecněné lineární modely, a metody založené na strojovém učení, především na neuronových sítích, a to v kontextu predikce počtu pojistných událostí na povinném ručení. Oba zmíněné způsoby byly aplikovány na reálná data podobná českému trhu s povinným ručením, což umožňuje odhadnout predikční schopnosti obou metod celkově i v jednotlivých rizikových segmentech a porovnat jejich výhody. Zatímco tradiční přístupy nabízejí osvědčené modely s dobrou interpretovatelností, moderní techniky přinášejí pokročilé možnosti modelování komplexních vzorců v datech. Na kategorizovaných datech pro zobecněné lineární modely se dostatečně neprojevily výhody statistického učení, které naopak častěji chybovalo na méně zastoupených segmentech. Výhodou neuronových sítí je práce s kategoriálními proměnnými nabývajícími mnoha možných hodnot, které lze rychle shlukovat a vizualizovat pomocí vložených vrstev. Primárně lze vidět budoucnost predikcí rizika v pojišťovnictví zejména v užívání hybridních modelů, které snoubí důležitou interpretovatelnost a s ní spojenou expertní škálovatelnost zobecněných lineárních modelů s identifikací komplikovanějších závislostí, které lze vhodně odhalit využitím neuronových sítí.
Keywords: škodní frekvence; zobecněný lineární model; statistické učení; neuronová síť
Thesis title: Generalized Linear Model Using Neural Networks for Predicting the Number of Claim Events
Author: Vít, Ondřej
Thesis type: Diploma thesis
Supervisor: Štěpánek, Lubomír
Opponents: -
Thesis language: Česky
Abstract:
The claim frequency, along with the extent of damage, is a crucial part of risk estimation in the insurance sector. Using appropriate data, our goal is to compare traditional statistical methods, particularly generalized linear models, with methods based on machine learning, especially neural networks, in the context of predicting the number of insurance events in mandatory liability insurance. Both mentioned approaches were applied to real data similar to the Czech mandatory insurance market, allowing us to estimate the predictive capabilities of both methods overall and in individual risk segments and to compare their advantages. While traditional approaches offer proven models with good interpretability, modern techniques provide advanced options for modeling complex patterns in the data. On categorized data for generalized linear models, the advantages of statistical learning, which more often made predictive errors in less represented segments, were not sufficiently demonstrated. An advantage of the neural networks is its ability to work with categorical variables that have many possible values, which can be quickly clustered and visualized using embedded layers. Primarily, the future of risk prediction in insurance is seen especially in the use of hybrid models that combine the important interpretability and associated expert scalability of generalized linear models with the identification of more complex dependencies that can be appropriately uncovered using neural networks.
Keywords: claims frequency; general linear model; machine learning; neural net

Information about study

Study programme: Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 12. 1. 2024
Date of submission: 27. 6. 2024
Date of defense: 2024

Files for download

The files will be available after the defense of the thesis.

    Last update: