Modeling lapse rate in life insurance: A study of data balancing methods
Thesis title: | Modeling lapse rate in life insurance: A study of data balancing methods |
---|---|
Author: | Bogdan, Adam |
Thesis type: | Diploma thesis |
Supervisor: | Černý, Michal |
Opponents: | Dvořáčková, Lucie |
Thesis language: | English |
Abstract: | Lapse rates have generally been estimated on product to product base. Using this approach, however, may be imprecise as it doesn't reflect each customers probabilities and therefore may negatively impact the cash flow predictions. Using real data from a Czech insurance company, this paper is aimed at generating individual probabilities as opposed to the estimated lapses for the whole product. Models like logistic regression, XGB, lasso, ridge, elastic net and random forest are estimated, tested and compared. The inevitable problem of unbalanced data is solved by over-sampling and/or under-sampling methods and their effects on predictions is deeply studied, thus more than 70 balanced training datasets are created. The main finding are that based on the provided dataset the various classification methods perform at fairly similar level. Since the balancing methods are based on K-Nearest Neighbors, the varying values of K were tested and it can be concluded that their parametrization does not significantly improve models. Comparing the main over-sampling methods, ADASYN methods had a higher F1 score than SMOTE methods. Also using hybrid methods did not prove to significantly improve prediction results compared to the individual methods. Overall, even the best models, do not perform at a level that would be deemed useful in real world use, judging by F1 scores that were at best around 0,2. |
Keywords: | lapses; XGB; predictions; data imbalance; Random Forest; logistic regression |
Thesis title: | Modeling lapse rate in life insurance: A study of data balancing methods |
---|---|
Author: | Bogdan, Adam |
Thesis type: | Diplomová práce |
Supervisor: | Černý, Michal |
Opponents: | Dvořáčková, Lucie |
Thesis language: | English |
Abstract: | Miery storien boli historicky odhadované na báze jednotlivých produktov. Použitie tohto prístupu však môže byť nepresné, pretože neodráža individuálne pravdepodobnosti každého zákazníka, a preto môže mať negatívne vplyvy na predikcie finančných tokov. Pomocou skutočných dát z poisťovne Uniqa sú vygenerované individuálne pravdepodobnosti na rozdiel od odhadovaných storien za celý produkt. Modely ako logistická regresia, XGB, lasso a hrebeňová regresia a Random Forest sú odhadnuté, testované a porovnané. Nevyhnutný problém nevyvážených dát je riešený metódami nadvzorkovania a/alebo podvzorkovania a ich vplyv na predpovede je dôkladne študovaný, na čo je vytvorených viac ako 70 vyvážených trénovacích súborov údajov. Hlavným zistením je, presnosť predpovedí pre rôzne klasifikačné metódy sa vo všeobecnosti veľmi nelýši. Keďže metódy vyvažovania sú založené na K-najbližších susedoch, boli testované rôzne hodnoty K a je možné konštatovať, že ich parametrizácia významne nezlepšuje modely. Pri porovnaní hlavných metód nadvzorkovania mali metódy nadvzorkovania založené na ADASYN vyššie skóre F1 ako metódy nadvzorkovania založené na SMOTE. Ani použitie hybridných metód nepreukázalo významné zlepšenie výsledkov predikcie v porovnaní s jednotlivými metódami použitými samostatne. Celkovo ani tie najlepšie modely nefungujú na úrovni, ktorá by sa dala považovať za použiteľnú v reálnom svete, súdiac podľa skóre F1, ktoré aj v najlepšom prípade bolo okolo 0,2. |
Keywords: | storná; predikcie; nevyrovnané data; Random Forest; logistická regrese; XGB |
Information about study
Study programme: | Ekonometrie a operační výzkum |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Econometrics |
Information on submission and defense
Date of assignment: | 25. 4. 2024 |
---|---|
Date of submission: | 5. 5. 2025 |
Date of defense: | 5. 6. 2025 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/88312/podrobnosti |