Integrace benchmarkové analýzy a strojového učení pro optimalizaci testování sankčního screeningu

English
Česky

Název práce:	Integration of Benchmark Analysis and Machine Learning for the Optimization of Sanctions Screening Testing
Autor(ka) práce:	Dautov, Dilmurat
Typ práce:	Diploma thesis
Vedoucí práce:	Víta, Martin
Oponenti práce:	-
Jazyk práce:	English
Abstrakt:	Sanctions screening is an important compliance process used to prevent financial crimes. This process relies on name screening algorithms, which must account for the fact that a name may appear as an alias or as another name variation. One of the central challenges in sanctions screening is the handling of weak aliases, which can increase the number of false negatives. This issue was identified within a business environment, where the screening process required data-driven support to address it more effectively. The aim of this thesis is to analyze sanctioned names and their aliases in order to develop a machine learning classifier for weak aliases, and to design a prototype data-driven application for managing and visualizing project data. The methodology includes a comparison of machine learning classification models, the evaluation of these models using different performance metrics, and the assessment of the application prototype based on business and technical requirements. In addition, the impact of the model on historical business data was examined in order to determine whether it had any effect on the recall performance of sanctions screening. The main results show that the selected model achieved balanced performance with a high F1-score. However, when applied to historical data, it led to a decrease in overall recall. Therefore, the model developed in this thesis contributes to supporting decision-making rather than serving as a system on which full reliance can be placed. The application, in turn, has the potential to improve project data management and visualization once it is applied within business processes and fully deployed.
Klíčová slova:	weak alias; XGBoost classifier; binary machine learning classifier; OpenSanctions; sanctions screening; Streamlit

Název práce:	Integrace benchmarkové analýzy a strojového učení pro optimalizaci testování sankčního screeningu
Autor(ka) práce:	Dautov, Dilmurat
Typ práce:	Diplomová práce
Vedoucí práce:	Víta, Martin
Oponenti práce:	-
Jazyk práce:	English
Abstrakt:	Sankční screening je důležitý compliance proces využívaný k prevenci finanční kriminality. Tento proces se opírá o algoritmy pro screening jmen, které musí zohledňovat skutečnost, že se jméno může vyskytovat jako alias nebo jako jiná varianta jména. Jednou z hlavních výzev v sankčním screeningu je práce se slabými aliasy, které mohou zvyšovat počet falešně negativních výsledků. Tento problém byl identifikován v podnikovém prostředí, kde screeningový proces vyžadoval datově řízenou podporu pro jeho efektivnější řešení. Cílem této práce je analyzovat sankcionovaná jména a jejich aliasy za účelem vývoje klasifikátoru slabých aliasů založeného na strojovém učení a navrhnout prototyp datově řízené aplikace pro správu a vizualizaci projektových dat. Metodika zahrnuje porovnání klasifikačních modelů strojového učení, hodnocení těchto modelů pomocí různých výkonnostních metrik a posouzení prototypu aplikace na základě obchodních a technických požadavků. Dále byl zkoumán dopad modelu na historická podniková data s cílem zjistit, zda má vliv na výkonnost sankčního screeningu z hlediska metriky recall. Hlavní výsledky ukazují, že vybraný model dosáhl vyvážené výkonnosti s vysokým F1 skóre. Při aplikaci na historická data však vedl ke snížení celkové hodnoty recall. Model vytvořený v této práci proto přispívá spíše k podpoře rozhodování než k systému, na který by bylo možné se plně spoléhat. Aplikace má zároveň potenciál zlepšit správu a vizualizaci projektových dat, jakmile bude začleněna do podnikových procesů a plně nasazena.
Klíčová slova:	sankční screening; slabý alias; binární klasifikátor strojového učení; XGBoost klasifikátor; Streamlit; OpenSanctions

Informace o studiu

Studijní program / obor:	Data a analytika pro business
Typ studijního programu:	Magisterský studijní program
Přidělovaná hodnost:	Ing.
Instituce přidělující hodnost:	Vysoká škola ekonomická v Praze
Fakulta:	Fakulta informatiky a statistiky
Katedra:	Katedra matematiky

Informace o odevzdání a obhajobě

Datum zadání práce:	28. 9. 2025
Datum podání práce:	25. 6. 2026
Datum obhajoby:	2026

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.