Probabilistic Scoring Model for Identifying Bank Clients
Thesis title: | Pravděpodobností skóre pro identifikaci klientů banky |
---|---|
Author: | Fáber, Pavel |
Thesis type: | Diplomová práce |
Supervisor: | Karkošková, Soňa |
Opponents: | Staněk, Štěpán |
Thesis language: | Česky |
Abstract: | Tato diplomová práce se zabývá vývojem pravděpodobnostního modelu pro kvantitativní hodnocení kvality klientských dat v bankovním prostředí, zaměřeného na Master Data Management. Cílem bylo vytvořit model, který by zdokonalil proces párování dat prostřednictvím výpočtu skóre identifikujícího jedinečnost dat v rozmezí 0 až 100. Tento model je navržen jako doplňkový systém ke stávajícím unifikačním pravidlům, která řídí proces matchingu dat. Práce začíná obecným přehledem Master Data Managementu a jeho implementací v bance, s důrazem na matching klientských dat. Vývoj modelu podle metodiky CRISP-DM zahrnoval návrh konceptu výpočtu, výběr relevantních atributů, generování četnostních profilů a vytvoření dvojího systému vah. První systém vah vycházel ze shlukování četností jednotlivých atributů, zatímco druhý byl určen pomocí optimalizačních úloh, které zohledňovaly statistiky a expertní posudky. Výsledné skóre vzniklé sečtením vynásobených vah u všech atributů bylo aplikováno na testovací data a podrobeno analýze, která zahrnovala stanovení prahové hodnoty pro jednoznačné oddělení unikátních záznamů. Validace modelu prostřednictvím analýzy vývoje skóre dle různých parametrů a expertních rozhovorů potvrdila jeho funkčnost a potenciál pro vylepšení kvality klientských dat a procesní efektivity. Práce navrhuje webovou službu, která umožní v budoucnu automatizaci výpočtů a integraci modelu do bankovních systémů, což přispěje k efektivnějšímu rozhodování při onboardingu klientů, snížení rizika duplicit a posílení spolehlivosti datového managementu v bance. |
Keywords: | klientská data; Master Data Management; pravděpodobnostní model; skórovací systém; statistické metody; unifikace dat |
Thesis title: | Probabilistic Scoring Model for Identifying Bank Clients |
---|---|
Author: | Fáber, Pavel |
Thesis type: | Diploma thesis |
Supervisor: | Karkošková, Soňa |
Opponents: | Staněk, Štěpán |
Thesis language: | Česky |
Abstract: | This diploma thesis focuses on developing a probabilistic model for quantitatively evaluating the quality of client data in a banking environment, specifically targeting Master Data Management. The goal was to create a model that enhances the data matching process by calculating a score that identifies data uniqueness within a range of 0 to 100. This model is intended as a supplementary system to the existing unification rules that govern data matching. The thesis begins with a general overview of Master Data Management and its implementation within the bank, emphasizing client data matching. The development of the model followed the CRISP-DM methodology, including the design of the calculation concept, selection of relevant attributes, generation of frequency profiles, and creation of a dual weighting system. The first weighting system was based on clustering the frequencies of individual attributes, while the second was determined through optimization tasks that considered statistics and expert opinions. The resulting score, formed by summing the multiplied weights of all attributes, was applied to test data and analyzed, including the establishment of a threshold value for clearly separating unique records. Validation of the model through score development analysis based on various parameters and expert interviews confirmed its functionality and potential for improving client data quality and process efficiency. The thesis proposes a web service to enable automation of calculations and future integration of the model into banking systems, contributing to more efficient decision-making during client onboarding, reducing duplication risk, and enhancing the reliability of data management in the bank. |
Keywords: | scoring system; client data; Master Data Management; probabilistic model; data matching; statistical methods |
Information about study
Study programme: | Data a analytika pro business |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information Technologies |
Information on submission and defense
Date of assignment: | 25. 10. 2024 |
---|---|
Date of submission: | 3. 5. 2025 |
Date of defense: | 12. 6. 2025 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/90118/podrobnosti |
Files for download
Main text
Private file Download
Private file Download