GPT-2 pro klasifikaci emailů v němčině na platformě Azure

Název práce: GPT-2 for email classification of german emails in Azure
Autor(ka) práce: Dvořák, Jáchym
Typ práce: Diploma thesis
Vedoucí práce: Zimmermann, Pavel
Oponenti práce: Habarta, Filip
Jazyk práce: English
Abstrakt:
Siemens currently uses a machine learning system deployed in the Azure cloud platform that categorizes incoming emails in German into several categories, subcategories and assigns priority to them. However, full try-out of different models has not been performed, and despite great industry-wise performance of the current solution, it is not clear whether it can be improved. This thesis outlines the theoretical pillars required for understanding the practical part, in which it investigates whether improving performance is possible using a different model and an ensemble solution, tackles other relevant tasks such as assessing whether the data changes over time and presents results in comparison with the current solution. While the analysis shows that performance does not improve with a different, state-of-the-art model, it further strengthens the position of the current model as the optimal solution, and the suggested GPT-2 model may outperform the current DistilBERT in future use-cases. Additionally, the ensemble method, consisting of combining the current and proposed solutions, shows promising results in one of the three tasks, improving prediction accuracy by half a percent. Furthermore, several improvements in the code-base as well as further knowledge about the problem as a result of this experiment are likely to help the business in the future.
Klíčová slova: Machine Learning; GPT-2; Azure; Natural Language Processing (NLP)
Název práce: GPT-2 pro klasifikaci emailů v němčině na platformě Azure
Autor(ka) práce: Dvořák, Jáchym
Typ práce: Diplomová práce
Vedoucí práce: Zimmermann, Pavel
Oponenti práce: Habarta, Filip
Jazyk práce: English
Abstrakt:
Siemens v tuto chvíli používá systém strojového učení v cloudové platformě Azure na kategorizaci příchozích emailů v němčině do několika kategorií, podkategorií a přiděluje jim prioritu. Kompletní test vícero modelů a selekce toho nejlepšího však nebyly nikdy provedeny, a ač je přesnost aktuálního modelu dostačující a napříč odvětvími dobrá, není zřejmé, zda lze dosáhnout zlepšení. Tato diplomová práce popisuje teorii nutnou k praktické části, ve které zkoumá možnost zlepšení současného řešení pomocí modelu strojového učení GPT-2 a ensemble řešení, ale také se zabývá dalšími důležitými kroky, jako je například detekce změny dat v čase, a následně srovnává výsledky se současným stavem. Ač analýza ukázala, že přesnost pomocí použitého GPT-2 modelu zlepšit nelze, posiluje to hypotézu, že aktuální řešení je blízko optimu. Ensemble metoda, tedy kombinace predikcí současnéhp modelu DistilBERT a navrhovaného modelu GPT-2, se ukázala jako slibná, neboť v jednom ze tří úkolů dosáhla lepších výsledků než oba z modelů samostatně, a to o půl procenta. Dále se povedlo přinést vylepšení do celé kódové základny a další důležité poznatky pro byznys.
Klíčová slova: GPT-2; Strojové učení; Zpracování přirozeného jazyka (NLP); Azure

Informace o studiu

Studijní program / obor: Data a analytika pro business
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 29. 1. 2022
Datum podání práce: 28. 4. 2022
Datum obhajoby: 11. 10. 2022
Identifikátor v systému InSIS: https://insis.vse.cz/zp/79513/podrobnosti

Soubory ke stažení

    Poslední aktualizace: