Automation of the Product Matching Process

Thesis title: Automatizace procesu mapování produktů
Author: Mechl, Matyáš
Thesis type: Diplomová práce
Supervisor: Zimmermann, Pavel
Opponents: Karlíček, Jan
Thesis language: Česky
Abstract:
Diplomová práce s názvem „Automatizace procesu mapování produktů“ se zabývá problematikou datového párování („data matching“) v nadnárodní společnosti působící v oblasti FMCG (Rychloobrátkové spotřební zboží). Hlavním cílem této práce bylo navrhnout a úspěšně implementovat řešení, které dokáže do jisté míry automatizovat business proces, který byl dosud vykonávaný manuálně. Přesněji jde o proces, při kterém dochází k napojování záznamů o produktech pocházející z externích zdrojů na interní podnikové zdroje. A to v případech, kdy mezi datovými sadami neexistuje jedinečný identifikátor, pomocí kterého by mohlo dojít k jejich jednoduchému propojení. V práci je nejprve definován business problém a samotná problematika datového mapování. Následuje představení vytvořeného systému včetně detailních popisů jednotlivých fází a způsobu jejich vytvoření. Závěrem je provedeno vyhodnocení úspěšnosti řešení v reálném provozu včetně jeho přínosů pro společnost.
Keywords: blokování; Python; TF-IDF; algoritmus nejbližších sousedů; interní data; externí data; produktový název; mapování; Datové párování; produktový údaj
Thesis title: Automation of the Product Matching Process
Author: Mechl, Matyáš
Thesis type: Diploma thesis
Supervisor: Zimmermann, Pavel
Opponents: Karlíček, Jan
Thesis language: Česky
Abstract:
The master thesis entitled "Automation of the product matching process" deals with the issue of data matching in a multinational company operating in the field of FMCG (Fast Moving Consumer Goods). The main goal of this thesis was to design and successfully implement a solution that can automate a business proces that was manually performed. More specifically it is a process that involves linking product records originating from external sources to internal corporate data sources. The crucial thing is that there is no unique identifier between the datasets that could be used to easily link them. Firstly, the business problem is defined, then the issue of data mapping itself, followed by an introduction of developed system, including detailed descriptions of the individual phases and how they were created. Finally, an evaluation of the solution in real operation is made, including its benefits for the company.
Keywords: product data; Data matching; blocking; external data; product name; mapping; Python; TF-IDF; nearest neighbors algorithm; internal data

Information about study

Study programme: Data a analytika pro business
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 2. 2. 2022
Date of submission: 28. 4. 2022
Date of defense: 11. 10. 2022
Identifier in the InSIS system: https://insis.vse.cz/zp/79560/podrobnosti

Files for download

    Last update: