Optimization of Categorization of Card Payments

Thesis title: Optimization of Categorization of Card Payments
Author: Dohová, Simona
Thesis type: Diploma thesis
Supervisor: Umlauf, Miroslav
Opponents: Kotuč, Aleš
Thesis language: English
Abstract:
This master's thesis focuses on identifying similarities between the names of uncategorized merchants and those already categorized, using various similarity metrics and evaluating their effectiveness. After selecting the most suitable metric, it explores methods for categorizing these similar merchants. First, it explores the suitability of a classification model using NLP (Natural Language Processing) for text vector representation. Additionally, it explores solutions using more advanced methods such as transformers. The analysis is conducted on real-world data from the largest financial institution in the Czech Republic. Its main purpose is to increase the coverage of categorized merchants to provide bank customers with a better understanding of their expenses.
Keywords: Machine Learning; Natural Language Preprocessing; Categorization of Payments; Transformers; Similarity metrics
Thesis title: Optimalizace kategorizace kreditních plateb
Author: Dohová, Simona
Thesis type: Diplomová práce
Supervisor: Umlauf, Miroslav
Opponents: Kotuč, Aleš
Thesis language: English
Abstract:
Tato diplomová práce se zaměřuje na identifikaci podobností mezi názvy nezařazených a již zařazených obchodníků s využitím různých metrik podobnosti a hodnotí jejich efektivitu. Po výběru nejvhodnější metriky jsou zkoumány metody pro kategorizaci těchto podobných obchodníků. Nejprve je analyzována vhodnost klasifikačního modelu využívajícího metody zpracování přirozeného jazyka (NLP) pro vektorovou reprezentaci textu. Následně jsou zvažována pokročilejší řešení, jako jsou modely typu transformer. Analýza je provedena na reálných datech od největší finanční instituce v České republice. Hlavním cílem práce je zvýšit pokrytí zařazených obchodníků a poskytnout zákazníkům banky lepší přehled o jejich výdajích.
Keywords: Zpracování přirozeného jazyka; Metriky podobnosti; Kategorizace plateb; Strojové učení; Transformery

Information about study

Study programme: Data a analytika pro business
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 1. 4. 2025
Date of submission: 5. 5. 2025
Date of defense: 6. 6. 2025
Identifier in the InSIS system: https://insis.vse.cz/zp/92059/podrobnosti

Files for download

    Last update: