Predikce kódů NACE na základě strojového učení a automatizovaného zpracování
Název práce: | Prediction of NACE codes based on Machine Learning and Automated Processing |
---|---|
Autor(ka) práce: | Barlas, Can |
Typ práce: | Diploma thesis |
Vedoucí práce: | Vltavská, Kristýna |
Oponenti práce: | Musil, Petr |
Jazyk práce: | English |
Abstrakt: | This study aims to predict businesses' NACE codes from textual data using a machine learning algorithm developed based on Nature Language Processing. The data used in the study is derived from textual information from various businesses. The dataset was prepared using preprocessing techniques and trained and tested with Naive Bayes, Random Forest, Support Vector Machines. The performance of the models were evaluated using accuracy and other metrics. The results show that the Random Forest algorithm is slightly more accurate and has better overall performance in terms of precision, recall, and F1-scores across more categories. The findings of this study will contribute to businesses by improving their sectoral classifications, allowing them to make more efficient and accurate decisions. |
Klíčová slova: | Machine-Learning, ; Performance evaluation; NACE code; Naïve Bayes; Support Vector Machine; Random Forest; text classification; Sectoral classification |
Název práce: | Predikce kódů NACE na základě strojového učení a automatizovaného zpracování |
---|---|
Autor(ka) práce: | Barlas, Can |
Typ práce: | Diplomová práce |
Vedoucí práce: | Vltavská, Kristýna |
Oponenti práce: | Musil, Petr |
Jazyk práce: | English |
Abstrakt: | Tato studie si klade za cíl předpovídat kódy NACE podniků z textových dat pomocí algoritmu strojového učení vyvinutého na základě zpracování přírodního jazyka. Data použitá ve studii jsou odvozena z textových informací z různých podniků. Soubor dat byl připraven pomocí technik předběžného zpracování a trénován a testován pomocí Naive Bayes, Random Forest, Support Vector Machines. Výkonnost modelů byla hodnocena pomocí přesnosti a dalších metrik. Výsledky ukazují, že algoritmus Random Forest je o něco přesnější a má lepší celkový výkon, pokud jde o přesnost, zapamatování a skóre F1 ve více kategoriích. Zjištění této studie přispějí podnikům zlepšením jejich odvětvové klasifikace, což jim umožní činit efektivnější a přesnější rozhodnutí. |
Klíčová slova: | Support Vector Machine; Random Forest; NACE kód; Naïve Bayes; Machine-Learning; textová klasifikace; Sektorová klasifikace; Hodnocení výkonu |
Informace o studiu
Studijní program / obor: | Economic Data Analysis/Official Statistics |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra ekonomické statistiky |
Informace o odevzdání a obhajobě
Datum zadání práce: | 21. 3. 2024 |
---|---|
Datum podání práce: | 27. 6. 2024 |
Datum obhajoby: | 21. 8. 2024 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/88099/podrobnosti |