Automation of the Product Matching Process
Thesis title: | Automatizace procesu mapování produktů |
---|---|
Author: | Mechl, Matyáš |
Thesis type: | Diplomová práce |
Supervisor: | Zimmermann, Pavel |
Opponents: | Karlíček, Jan |
Thesis language: | Česky |
Abstract: | Diplomová práce s názvem „Automatizace procesu mapování produktů“ se zabývá problematikou datového párování („data matching“) v nadnárodní společnosti působící v oblasti FMCG (Rychloobrátkové spotřební zboží). Hlavním cílem této práce bylo navrhnout a úspěšně implementovat řešení, které dokáže do jisté míry automatizovat business proces, který byl dosud vykonávaný manuálně. Přesněji jde o proces, při kterém dochází k napojování záznamů o produktech pocházející z externích zdrojů na interní podnikové zdroje. A to v případech, kdy mezi datovými sadami neexistuje jedinečný identifikátor, pomocí kterého by mohlo dojít k jejich jednoduchému propojení. V práci je nejprve definován business problém a samotná problematika datového mapování. Následuje představení vytvořeného systému včetně detailních popisů jednotlivých fází a způsobu jejich vytvoření. Závěrem je provedeno vyhodnocení úspěšnosti řešení v reálném provozu včetně jeho přínosů pro společnost. |
Keywords: | blokování; Python; TF-IDF; algoritmus nejbližších sousedů; interní data; externí data; produktový název; mapování; Datové párování; produktový údaj |
Thesis title: | Automation of the Product Matching Process |
---|---|
Author: | Mechl, Matyáš |
Thesis type: | Diploma thesis |
Supervisor: | Zimmermann, Pavel |
Opponents: | Karlíček, Jan |
Thesis language: | Česky |
Abstract: | The master thesis entitled "Automation of the product matching process" deals with the issue of data matching in a multinational company operating in the field of FMCG (Fast Moving Consumer Goods). The main goal of this thesis was to design and successfully implement a solution that can automate a business proces that was manually performed. More specifically it is a process that involves linking product records originating from external sources to internal corporate data sources. The crucial thing is that there is no unique identifier between the datasets that could be used to easily link them. Firstly, the business problem is defined, then the issue of data mapping itself, followed by an introduction of developed system, including detailed descriptions of the individual phases and how they were created. Finally, an evaluation of the solution in real operation is made, including its benefits for the company. |
Keywords: | product data; Data matching; blocking; external data; product name; mapping; Python; TF-IDF; nearest neighbors algorithm; internal data |
Information about study
Study programme: | Data a analytika pro business |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information Technologies |
Information on submission and defense
Date of assignment: | 2. 2. 2022 |
---|---|
Date of submission: | 28. 4. 2022 |
Date of defense: | 11. 10. 2022 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/79560/podrobnosti |