Application of text analytics in an utility company

Thesis title: Aplikace textové analytiky v utilitní společnosti
Author: Krasňan, Michal
Thesis type: Diplomová práce
Supervisor: Novotný, Ota
Opponents: Bruckner, Tomáš
Thesis language: Česky
Abstract:
Diplomová práce se zabývá oblastí vytěžování dat z textu. V dnešní době je velmi důležité získávat dostupné informace, ale objem textu se neustále zvětšuje. Popsaný problém je motivací této práce, která v teoretické části popisuje obvyklé zdroje dat, jako jsou emaily nebo webové stránky. Dále následuje popis základních struktur textu, znaků, slov, vět, odstavců a dokumentů, včetně typických problémů provázejících jejich zpracování. Dalším krokem je předzpracování dat, kde jsou popsány obvyklé postupy úpravy vstupních textů, které vedou ke zlepšení výsledků analýzy. Konkrétně jde o sjednocení velikosti písmen, kontrolu pravopisu, detekci vět, tokenizaci, stemming a lemmatizaci, odstranění stop slov, rozšíření pojmu, označení slovních druhů a syntaktickou analýzu. Po popisu těchto postupů práce pokračuje modelovacími metodami, tedy způsoby, jak ze zpracovaných dat vytěžit informace. Popsány jsou vyhledávací indexy, extrakce pojmenovaných entit, analýza sentimentu, klasifikace, shluková analýza, sumarizace a odpovídání na otázky. Poslední teoretickou částí je vizualizace, ve které jsou popsány možnosti zobrazení vytěžených informací. V praktické části dochází k implementaci třídění příchozích emailů pomocí nástroje Elasticsearch se zapojením preprocesingových metod. Dosažená úspěšnost klasifikace je přes sedmdesát pět procent. Ve stejném nástroji jsou také zpracována data z Net Promoter Score, která jsou vizualizována ve formě analytického dashboardu v aplikaci Kibana.
Keywords: Textová analytika; Kategorizace textu; Kibana; Elasticsearch; Dolování z textu; Zpracování přirozeného jazyka; Net Promoter Score
Thesis title: Application of text analytics in an utility company
Author: Krasňan, Michal
Thesis type: Diploma thesis
Supervisor: Novotný, Ota
Opponents: Bruckner, Tomáš
Thesis language: Česky
Abstract:
This thesis deals with the extraction of data from the text. Motivations for this thesis are growing volumes of text and never ending need of information. To tackle this problem there are described usual sources of textual data -- customers' emails or websites, as well as basic structures such as characters, words, paragraphs and documents and typical problems that occurs during its processing. Next step is to depict few preprocessing methods to gain some leverage in the upcoming analysis, specifically case matching, spell-check, sentence detection, tokenization, stemming and lemmatization, stop-words removal, term expansion, part of speech tagging and parsing. When the data is ready, it's possible to involve modeling methods, which extract information from data, namely search index, named entity extraction, sentiment analysis, classification, clustering, summarization and question answering. Last theoretical part is visualization, which enables showing extracted information in user friendly way. The practical part consists of two cases of implementation. First, there is an email classification using Elasticsearch and preprocessing methods which achieved over 75 % correctly classified emails. Second, the same tool and different preprocessing is used to process data of Net Promoter Score which is later visualized in Kibana as an analytical dashboard.
Keywords: Net Promoter Score; Text Categorisation; Text mining; Text analytics; Kibana; Natural Language Processing; Elasticsearch

Information about study

Study programme: Aplikovaná informatika/Informační systémy a technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 3. 3. 2014
Date of submission: 5. 12. 2014
Date of defense: 2. 6. 2015
Identifier in the InSIS system: https://insis.vse.cz/zp/46719/podrobnosti

Files for download

Main text
Private file
Download
Private annex
Private file
Download
    Last update: