Predikce kódů NACE na základě strojového učení a automatizovaného zpracování

English
Česky

Název práce:	Prediction of NACE codes based on Machine Learning and Automated Processing
Autor(ka) práce:	Barlas, Can
Typ práce:	Diploma thesis
Vedoucí práce:	Vltavská, Kristýna
Oponenti práce:	Musil, Petr
Jazyk práce:	English
Abstrakt:	This study aims to predict businesses' NACE codes from textual data using a machine learning algorithm developed based on Nature Language Processing. The data used in the study is derived from textual information from various businesses. The dataset was prepared using preprocessing techniques and trained and tested with Naive Bayes, Random Forest, Support Vector Machines. The performance of the models were evaluated using accuracy and other metrics. The results show that the Random Forest algorithm is slightly more accurate and has better overall performance in terms of precision, recall, and F1-scores across more categories. The findings of this study will contribute to businesses by improving their sectoral classifications, allowing them to make more efficient and accurate decisions.
Klíčová slova:	Machine-Learning, ; Performance evaluation; NACE code; Naïve Bayes; Support Vector Machine; Random Forest; text classification; Sectoral classification

Název práce:	Predikce kódů NACE na základě strojového učení a automatizovaného zpracování
Autor(ka) práce:	Barlas, Can
Typ práce:	Diplomová práce
Vedoucí práce:	Vltavská, Kristýna
Oponenti práce:	Musil, Petr
Jazyk práce:	English
Abstrakt:	Tato studie si klade za cíl předpovídat kódy NACE podniků z textových dat pomocí algoritmu strojového učení vyvinutého na základě zpracování přírodního jazyka. Data použitá ve studii jsou odvozena z textových informací z různých podniků. Soubor dat byl připraven pomocí technik předběžného zpracování a trénován a testován pomocí Naive Bayes, Random Forest, Support Vector Machines. Výkonnost modelů byla hodnocena pomocí přesnosti a dalších metrik. Výsledky ukazují, že algoritmus Random Forest je o něco přesnější a má lepší celkový výkon, pokud jde o přesnost, zapamatování a skóre F1 ve více kategoriích. Zjištění této studie přispějí podnikům zlepšením jejich odvětvové klasifikace, což jim umožní činit efektivnější a přesnější rozhodnutí.
Klíčová slova:	Support Vector Machine; Random Forest; NACE kód; Naïve Bayes; Machine-Learning; textová klasifikace; Sektorová klasifikace; Hodnocení výkonu

Informace o studiu

Studijní program / obor:	Economic Data Analysis/Official Statistics
Typ studijního programu:	Magisterský studijní program
Přidělovaná hodnost:	Ing.
Instituce přidělující hodnost:	Vysoká škola ekonomická v Praze
Fakulta:	Fakulta informatiky a statistiky
Katedra:	Katedra ekonomické statistiky

Informace o odevzdání a obhajobě

Datum zadání práce:	21. 3. 2024
Datum podání práce:	27. 6. 2024
Datum obhajoby:	21. 8. 2024
Identifikátor v systému InSIS:	https://insis.vse.cz/zp/88099/podrobnosti

Soubory ke stažení

Hlavní práce
88099_barc05.pdf, 852 kB Stáhnout

Veřejná příloha
29418_barc05.zip, 173.4 kB Stáhnout

Oponentura
83919_xmusp11.pdf, 106.6 kB Stáhnout

Hodnocení vedoucího
88099_xvltk01.pdf, 106.5 kB Stáhnout