Prediction of NACE codes based on Machine Learning and Automated Processing

Thesis title: Prediction of NACE codes based on Machine Learning and Automated Processing
Author: Barlas, Can
Thesis type: Diploma thesis
Supervisor: Vltavská, Kristýna
Opponents: Musil, Petr
Thesis language: English
Abstract:
This study aims to predict businesses' NACE codes from textual data using a machine learning algorithm developed based on Nature Language Processing. The data used in the study is derived from textual information from various businesses. The dataset was prepared using preprocessing techniques and trained and tested with Naive Bayes, Random Forest, Support Vector Machines. The performance of the models were evaluated using accuracy and other metrics. The results show that the Random Forest algorithm is slightly more accurate and has better overall performance in terms of precision, recall, and F1-scores across more categories. The findings of this study will contribute to businesses by improving their sectoral classifications, allowing them to make more efficient and accurate decisions.
Keywords: Machine-Learning, ; Performance evaluation; NACE code; Naïve Bayes; Support Vector Machine; Random Forest; text classification; Sectoral classification
Thesis title: Predikce kódů NACE na základě strojového učení a automatizovaného zpracování
Author: Barlas, Can
Thesis type: Diplomová práce
Supervisor: Vltavská, Kristýna
Opponents: Musil, Petr
Thesis language: English
Abstract:
Tato studie si klade za cíl předpovídat kódy NACE podniků z textových dat pomocí algoritmu strojového učení vyvinutého na základě zpracování přírodního jazyka. Data použitá ve studii jsou odvozena z textových informací z různých podniků. Soubor dat byl připraven pomocí technik předběžného zpracování a trénován a testován pomocí Naive Bayes, Random Forest, Support Vector Machines. Výkonnost modelů byla hodnocena pomocí přesnosti a dalších metrik. Výsledky ukazují, že algoritmus Random Forest je o něco přesnější a má lepší celkový výkon, pokud jde o přesnost, zapamatování a skóre F1 ve více kategoriích. Zjištění této studie přispějí podnikům zlepšením jejich odvětvové klasifikace, což jim umožní činit efektivnější a přesnější rozhodnutí.
Keywords: Support Vector Machine; Random Forest; NACE kód; Naïve Bayes; Machine-Learning; textová klasifikace; Sektorová klasifikace; Hodnocení výkonu

Information about study

Study programme: Economic Data Analysis/Official Statistics
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Economic Statistics

Information on submission and defense

Date of assignment: 21. 3. 2024
Date of submission: 27. 6. 2024
Date of defense: 2024

Files for download

The files will be available after the defense of the thesis.

    Last update: