Design and implementation of an NLP application for removing the signature part of an email for a selected company

Thesis title: Návrh a implementace NLP aplikace pro odebrání podpisové části emailu pro vybranou firmu
Author: Elstnerová, Simona
Thesis type: Diplomová práce
Supervisor: Vencovský, Filip
Opponents: Vajdečka, Peter
Thesis language: Česky
Abstract:
Tato diplomová práce se zabývá návrhem a implementací aplikace, jež dokáže rozpoznat podpis emailu od jeho obsahu. Tato aplikace se bude později využívat při předpřípravě vstupních dat, tedy příchozích emailů, v rámci modelu, který klasifikuje samotný obsah emailu, aby se zjednodušilo jeho roztřídění a přeposílání na konkrétní oddělení. Struktura a jazyk použité v emailech se mnohdy diametrálně liší, jelikož email může být napsán formálně či neformálně, může se jednat o osobní, firemní, reklamní, úřední, či jiný druh emailu. Z tohoto důvodu je potřeba na úlohu klasifikace textu emailu nahlížet jakožto na NLP úlohu, jinak řečeno na úlohu zpracování přirozené řeči (natural language processing). V rámci této diplomové je nejprve popsána a vysvětlena současná situace třídění emailů ve vybrané firmě, kam se tato aplikace bude zařazovat. Dále je zde k nalezení rešerše akademických prací, jež se zabývají podobným tématem klasifikace emailů a nalezení jejich podpisových částí. Poté jsou zde prodiskutovány různé metody, které se u NLP aplikací využívají, a to jak při předpřípravě vstupních dat, výběru vhodného algoritmu a knihoven, tak pro vhodné míry validace již natrénovaných modelů. V praktické části diplomové práce je popsána tvorba samotné aplikace i s ukázky výpisu programovacího kódu. Nakonec práce jsou uvedeny doporučení, jak natrénovaný model nejlépe využít a co by bylo vhodné pro příští natrénování modelu změnit nebo upravit.
Keywords: zpracování přirozeného jazyka; neuronové sítě; hluboké učení; sekvenční data; strojové učení; NLP; textová klasifikace; RNN; rekurentní neuronové sítě
Thesis title: Design and implementation of an NLP application for removing the signature part of an email for a selected company
Author: Elstnerová, Simona
Thesis type: Diploma thesis
Supervisor: Vencovský, Filip
Opponents: Vajdečka, Peter
Thesis language: Česky
Abstract:
This diploma thesis deals with the design and implementation of an application that can recognize an email signature from its contents. This application will later be used in the pre-processing of input data, i.e., incoming emails, within a model that classifies the content of the email itself, in order to simplify its classification and forwarding to a specific department. The structure and language used in emails are often diametrically different, as the email can be written formally or informally, it can be a personal, corporate, advertising, official, or another type of email. For this reason, the task of classifying the text of an email needs to be seen as an NLP task, in other words, the task of natural language processing. Within this diploma, the current situation of email sorting in the selected company, where this application will be included, is first described and explained. There is also research for academic theses that deal with a similar topic of email classification and finding their signature sections. Then, the various methods used in NLP applications are discussed, both in the preparation of input data, the selection of a suitable algorithm and libraries, and for the appropriate measures of validation of already trained models. The practical part of the diploma thesis describes the implementation of the application itself with examples of programming code. Finally, this thesis provides recommendations on how to best use the trained model and what would be appropriate to change or modify for the next training of the model.
Keywords: sequence data; RNN; recurrent neural networks; neural networks; deep learning; NLP; natural language processing; text classification; machine learning

Information about study

Study programme: Aplikovaná informatika/Informační systémy a technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 1. 3. 2021
Date of submission: 30. 6. 2022
Date of defense: 3. 10. 2022
Identifier in the InSIS system: https://insis.vse.cz/zp/77054/podrobnosti

Files for download

    Last update: