Probabilistic Scoring Model for Identifying Bank Clients

Thesis title: Pravděpodobností skóre pro identifikaci klientů banky
Author: Fáber, Pavel
Thesis type: Diplomová práce
Supervisor: Karkošková, Soňa
Opponents: Staněk, Štěpán
Thesis language: Česky
Abstract:
Tato diplomová práce se zabývá vývojem pravděpodobnostního modelu pro kvantitativní hodnocení kvality klientských dat v bankovním prostředí, zaměřeného na Master Data Management. Cílem bylo vytvořit model, který by zdokonalil proces párování dat prostřednictvím výpočtu skóre identifikujícího jedinečnost dat v rozmezí 0 až 100. Tento model je navržen jako doplňkový systém ke stávajícím unifikačním pravidlům, která řídí proces matchingu dat. Práce začíná obecným přehledem Master Data Managementu a jeho implementací v bance, s důrazem na matching klientských dat. Vývoj modelu podle metodiky CRISP-DM zahrnoval návrh konceptu výpočtu, výběr relevantních atributů, generování četnostních profilů a vytvoření dvojího systému vah. První systém vah vycházel ze shlukování četností jednotlivých atributů, zatímco druhý byl určen pomocí optimalizačních úloh, které zohledňovaly statistiky a expertní posudky. Výsledné skóre vzniklé sečtením vynásobených vah u všech atributů bylo aplikováno na testovací data a podrobeno analýze, která zahrnovala stanovení prahové hodnoty pro jednoznačné oddělení unikátních záznamů. Validace modelu prostřednictvím analýzy vývoje skóre dle různých parametrů a expertních rozhovorů potvrdila jeho funkčnost a potenciál pro vylepšení kvality klientských dat a procesní efektivity. Práce navrhuje webovou službu, která umožní v budoucnu automatizaci výpočtů a integraci modelu do bankovních systémů, což přispěje k efektivnějšímu rozhodování při onboardingu klientů, snížení rizika duplicit a posílení spolehlivosti datového managementu v bance.
Keywords: klientská data; Master Data Management; pravděpodobnostní model; skórovací systém; statistické metody; unifikace dat
Thesis title: Probabilistic Scoring Model for Identifying Bank Clients
Author: Fáber, Pavel
Thesis type: Diploma thesis
Supervisor: Karkošková, Soňa
Opponents: Staněk, Štěpán
Thesis language: Česky
Abstract:
This diploma thesis focuses on developing a probabilistic model for quantitatively evaluating the quality of client data in a banking environment, specifically targeting Master Data Management. The goal was to create a model that enhances the data matching process by calculating a score that identifies data uniqueness within a range of 0 to 100. This model is intended as a supplementary system to the existing unification rules that govern data matching. The thesis begins with a general overview of Master Data Management and its implementation within the bank, emphasizing client data matching. The development of the model followed the CRISP-DM methodology, including the design of the calculation concept, selection of relevant attributes, generation of frequency profiles, and creation of a dual weighting system. The first weighting system was based on clustering the frequencies of individual attributes, while the second was determined through optimization tasks that considered statistics and expert opinions. The resulting score, formed by summing the multiplied weights of all attributes, was applied to test data and analyzed, including the establishment of a threshold value for clearly separating unique records. Validation of the model through score development analysis based on various parameters and expert interviews confirmed its functionality and potential for improving client data quality and process efficiency. The thesis proposes a web service to enable automation of calculations and future integration of the model into banking systems, contributing to more efficient decision-making during client onboarding, reducing duplication risk, and enhancing the reliability of data management in the bank.
Keywords: scoring system; client data; Master Data Management; probabilistic model; data matching; statistical methods

Information about study

Study programme: Data a analytika pro business
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 25. 10. 2024
Date of submission: 3. 5. 2025
Date of defense: 12. 6. 2025
Identifier in the InSIS system: https://insis.vse.cz/zp/90118/podrobnosti

Files for download

Main text
Private file
Download
    Last update: