GPT-2 for email classification of german emails in Azure

Thesis title: GPT-2 for email classification of german emails in Azure
Author: Dvořák, Jáchym
Thesis type: Diploma thesis
Supervisor: Zimmermann, Pavel
Opponents: Habarta, Filip
Thesis language: English
Abstract:
Siemens currently uses a machine learning system deployed in the Azure cloud platform that categorizes incoming emails in German into several categories, subcategories and assigns priority to them. However, full try-out of different models has not been performed, and despite great industry-wise performance of the current solution, it is not clear whether it can be improved. This thesis outlines the theoretical pillars required for understanding the practical part, in which it investigates whether improving performance is possible using a different model and an ensemble solution, tackles other relevant tasks such as assessing whether the data changes over time and presents results in comparison with the current solution. While the analysis shows that performance does not improve with a different, state-of-the-art model, it further strengthens the position of the current model as the optimal solution, and the suggested GPT-2 model may outperform the current DistilBERT in future use-cases. Additionally, the ensemble method, consisting of combining the current and proposed solutions, shows promising results in one of the three tasks, improving prediction accuracy by half a percent. Furthermore, several improvements in the code-base as well as further knowledge about the problem as a result of this experiment are likely to help the business in the future.
Keywords: Machine Learning; GPT-2; Azure; Natural Language Processing (NLP)
Thesis title: GPT-2 pro klasifikaci emailů v němčině na platformě Azure
Author: Dvořák, Jáchym
Thesis type: Diplomová práce
Supervisor: Zimmermann, Pavel
Opponents: Habarta, Filip
Thesis language: English
Abstract:
Siemens v tuto chvíli používá systém strojového učení v cloudové platformě Azure na kategorizaci příchozích emailů v němčině do několika kategorií, podkategorií a přiděluje jim prioritu. Kompletní test vícero modelů a selekce toho nejlepšího však nebyly nikdy provedeny, a ač je přesnost aktuálního modelu dostačující a napříč odvětvími dobrá, není zřejmé, zda lze dosáhnout zlepšení. Tato diplomová práce popisuje teorii nutnou k praktické části, ve které zkoumá možnost zlepšení současného řešení pomocí modelu strojového učení GPT-2 a ensemble řešení, ale také se zabývá dalšími důležitými kroky, jako je například detekce změny dat v čase, a následně srovnává výsledky se současným stavem. Ač analýza ukázala, že přesnost pomocí použitého GPT-2 modelu zlepšit nelze, posiluje to hypotézu, že aktuální řešení je blízko optimu. Ensemble metoda, tedy kombinace predikcí současnéhp modelu DistilBERT a navrhovaného modelu GPT-2, se ukázala jako slibná, neboť v jednom ze tří úkolů dosáhla lepších výsledků než oba z modelů samostatně, a to o půl procenta. Dále se povedlo přinést vylepšení do celé kódové základny a další důležité poznatky pro byznys.
Keywords: GPT-2; Strojové učení; Zpracování přirozeného jazyka (NLP); Azure

Information about study

Study programme: Data a analytika pro business
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 29. 1. 2022
Date of submission: 28. 4. 2022
Date of defense: 11. 10. 2022
Identifier in the InSIS system: https://insis.vse.cz/zp/79513/podrobnosti

Files for download

    Last update: