Návrh a implementace NLP aplikace pro odebrání podpisové části emailu pro vybranou firmu

Název práce: Návrh a implementace NLP aplikace pro odebrání podpisové části emailu pro vybranou firmu
Autor(ka) práce: Elstnerová, Simona
Typ práce: Diplomová práce
Vedoucí práce: Vencovský, Filip
Oponenti práce: Vajdečka, Peter
Jazyk práce: Česky
Abstrakt:
Tato diplomová práce se zabývá návrhem a implementací aplikace, jež dokáže rozpoznat podpis emailu od jeho obsahu. Tato aplikace se bude později využívat při předpřípravě vstupních dat, tedy příchozích emailů, v rámci modelu, který klasifikuje samotný obsah emailu, aby se zjednodušilo jeho roztřídění a přeposílání na konkrétní oddělení. Struktura a jazyk použité v emailech se mnohdy diametrálně liší, jelikož email může být napsán formálně či neformálně, může se jednat o osobní, firemní, reklamní, úřední, či jiný druh emailu. Z tohoto důvodu je potřeba na úlohu klasifikace textu emailu nahlížet jakožto na NLP úlohu, jinak řečeno na úlohu zpracování přirozené řeči (natural language processing). V rámci této diplomové je nejprve popsána a vysvětlena současná situace třídění emailů ve vybrané firmě, kam se tato aplikace bude zařazovat. Dále je zde k nalezení rešerše akademických prací, jež se zabývají podobným tématem klasifikace emailů a nalezení jejich podpisových částí. Poté jsou zde prodiskutovány různé metody, které se u NLP aplikací využívají, a to jak při předpřípravě vstupních dat, výběru vhodného algoritmu a knihoven, tak pro vhodné míry validace již natrénovaných modelů. V praktické části diplomové práce je popsána tvorba samotné aplikace i s ukázky výpisu programovacího kódu. Nakonec práce jsou uvedeny doporučení, jak natrénovaný model nejlépe využít a co by bylo vhodné pro příští natrénování modelu změnit nebo upravit.
Klíčová slova: zpracování přirozeného jazyka; neuronové sítě; hluboké učení; sekvenční data; strojové učení; NLP; textová klasifikace; RNN; rekurentní neuronové sítě
Název práce: Design and implementation of an NLP application for removing the signature part of an email for a selected company
Autor(ka) práce: Elstnerová, Simona
Typ práce: Diploma thesis
Vedoucí práce: Vencovský, Filip
Oponenti práce: Vajdečka, Peter
Jazyk práce: Česky
Abstrakt:
This diploma thesis deals with the design and implementation of an application that can recognize an email signature from its contents. This application will later be used in the pre-processing of input data, i.e., incoming emails, within a model that classifies the content of the email itself, in order to simplify its classification and forwarding to a specific department. The structure and language used in emails are often diametrically different, as the email can be written formally or informally, it can be a personal, corporate, advertising, official, or another type of email. For this reason, the task of classifying the text of an email needs to be seen as an NLP task, in other words, the task of natural language processing. Within this diploma, the current situation of email sorting in the selected company, where this application will be included, is first described and explained. There is also research for academic theses that deal with a similar topic of email classification and finding their signature sections. Then, the various methods used in NLP applications are discussed, both in the preparation of input data, the selection of a suitable algorithm and libraries, and for the appropriate measures of validation of already trained models. The practical part of the diploma thesis describes the implementation of the application itself with examples of programming code. Finally, this thesis provides recommendations on how to best use the trained model and what would be appropriate to change or modify for the next training of the model.
Klíčová slova: sequence data; RNN; recurrent neural networks; neural networks; deep learning; NLP; natural language processing; text classification; machine learning

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační systémy a technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 1. 3. 2021
Datum podání práce: 30. 6. 2022
Datum obhajoby: 3. 10. 2022
Identifikátor v systému InSIS: https://insis.vse.cz/zp/77054/podrobnosti

Soubory ke stažení

    Poslední aktualizace: