GPT-2 pro klasifikaci emailů v němčině na platformě Azure
Název práce: | GPT-2 for email classification of german emails in Azure |
---|---|
Autor(ka) práce: | Dvořák, Jáchym |
Typ práce: | Diploma thesis |
Vedoucí práce: | Zimmermann, Pavel |
Oponenti práce: | Habarta, Filip |
Jazyk práce: | English |
Abstrakt: | Siemens currently uses a machine learning system deployed in the Azure cloud platform that categorizes incoming emails in German into several categories, subcategories and assigns priority to them. However, full try-out of different models has not been performed, and despite great industry-wise performance of the current solution, it is not clear whether it can be improved. This thesis outlines the theoretical pillars required for understanding the practical part, in which it investigates whether improving performance is possible using a different model and an ensemble solution, tackles other relevant tasks such as assessing whether the data changes over time and presents results in comparison with the current solution. While the analysis shows that performance does not improve with a different, state-of-the-art model, it further strengthens the position of the current model as the optimal solution, and the suggested GPT-2 model may outperform the current DistilBERT in future use-cases. Additionally, the ensemble method, consisting of combining the current and proposed solutions, shows promising results in one of the three tasks, improving prediction accuracy by half a percent. Furthermore, several improvements in the code-base as well as further knowledge about the problem as a result of this experiment are likely to help the business in the future. |
Klíčová slova: | Machine Learning; GPT-2; Azure; Natural Language Processing (NLP) |
Název práce: | GPT-2 pro klasifikaci emailů v němčině na platformě Azure |
---|---|
Autor(ka) práce: | Dvořák, Jáchym |
Typ práce: | Diplomová práce |
Vedoucí práce: | Zimmermann, Pavel |
Oponenti práce: | Habarta, Filip |
Jazyk práce: | English |
Abstrakt: | Siemens v tuto chvíli používá systém strojového učení v cloudové platformě Azure na kategorizaci příchozích emailů v němčině do několika kategorií, podkategorií a přiděluje jim prioritu. Kompletní test vícero modelů a selekce toho nejlepšího však nebyly nikdy provedeny, a ač je přesnost aktuálního modelu dostačující a napříč odvětvími dobrá, není zřejmé, zda lze dosáhnout zlepšení. Tato diplomová práce popisuje teorii nutnou k praktické části, ve které zkoumá možnost zlepšení současného řešení pomocí modelu strojového učení GPT-2 a ensemble řešení, ale také se zabývá dalšími důležitými kroky, jako je například detekce změny dat v čase, a následně srovnává výsledky se současným stavem. Ač analýza ukázala, že přesnost pomocí použitého GPT-2 modelu zlepšit nelze, posiluje to hypotézu, že aktuální řešení je blízko optimu. Ensemble metoda, tedy kombinace predikcí současnéhp modelu DistilBERT a navrhovaného modelu GPT-2, se ukázala jako slibná, neboť v jednom ze tří úkolů dosáhla lepších výsledků než oba z modelů samostatně, a to o půl procenta. Dále se povedlo přinést vylepšení do celé kódové základny a další důležité poznatky pro byznys. |
Klíčová slova: | GPT-2; Strojové učení; Zpracování přirozeného jazyka (NLP); Azure |
Informace o studiu
Studijní program / obor: | Data a analytika pro business |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
Datum zadání práce: | 29. 1. 2022 |
---|---|
Datum podání práce: | 28. 4. 2022 |
Datum obhajoby: | 11. 10. 2022 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/79513/podrobnosti |