Application of text analytics in an utility company
Thesis title: | Aplikace textové analytiky v utilitní společnosti |
---|---|
Author: | Krasňan, Michal |
Thesis type: | Diplomová práce |
Supervisor: | Novotný, Ota |
Opponents: | Bruckner, Tomáš |
Thesis language: | Česky |
Abstract: | Diplomová práce se zabývá oblastí vytěžování dat z textu. V dnešní době je velmi důležité získávat dostupné informace, ale objem textu se neustále zvětšuje. Popsaný problém je motivací této práce, která v teoretické části popisuje obvyklé zdroje dat, jako jsou emaily nebo webové stránky. Dále následuje popis základních struktur textu, znaků, slov, vět, odstavců a dokumentů, včetně typických problémů provázejících jejich zpracování. Dalším krokem je předzpracování dat, kde jsou popsány obvyklé postupy úpravy vstupních textů, které vedou ke zlepšení výsledků analýzy. Konkrétně jde o sjednocení velikosti písmen, kontrolu pravopisu, detekci vět, tokenizaci, stemming a lemmatizaci, odstranění stop slov, rozšíření pojmu, označení slovních druhů a syntaktickou analýzu. Po popisu těchto postupů práce pokračuje modelovacími metodami, tedy způsoby, jak ze zpracovaných dat vytěžit informace. Popsány jsou vyhledávací indexy, extrakce pojmenovaných entit, analýza sentimentu, klasifikace, shluková analýza, sumarizace a odpovídání na otázky. Poslední teoretickou částí je vizualizace, ve které jsou popsány možnosti zobrazení vytěžených informací. V praktické části dochází k implementaci třídění příchozích emailů pomocí nástroje Elasticsearch se zapojením preprocesingových metod. Dosažená úspěšnost klasifikace je přes sedmdesát pět procent. Ve stejném nástroji jsou také zpracována data z Net Promoter Score, která jsou vizualizována ve formě analytického dashboardu v aplikaci Kibana. |
Keywords: | Textová analytika; Kategorizace textu; Kibana; Elasticsearch; Dolování z textu; Zpracování přirozeného jazyka; Net Promoter Score |
Thesis title: | Application of text analytics in an utility company |
---|---|
Author: | Krasňan, Michal |
Thesis type: | Diploma thesis |
Supervisor: | Novotný, Ota |
Opponents: | Bruckner, Tomáš |
Thesis language: | Česky |
Abstract: | This thesis deals with the extraction of data from the text. Motivations for this thesis are growing volumes of text and never ending need of information. To tackle this problem there are described usual sources of textual data -- customers' emails or websites, as well as basic structures such as characters, words, paragraphs and documents and typical problems that occurs during its processing. Next step is to depict few preprocessing methods to gain some leverage in the upcoming analysis, specifically case matching, spell-check, sentence detection, tokenization, stemming and lemmatization, stop-words removal, term expansion, part of speech tagging and parsing. When the data is ready, it's possible to involve modeling methods, which extract information from data, namely search index, named entity extraction, sentiment analysis, classification, clustering, summarization and question answering. Last theoretical part is visualization, which enables showing extracted information in user friendly way. The practical part consists of two cases of implementation. First, there is an email classification using Elasticsearch and preprocessing methods which achieved over 75 % correctly classified emails. Second, the same tool and different preprocessing is used to process data of Net Promoter Score which is later visualized in Kibana as an analytical dashboard. |
Keywords: | Net Promoter Score; Text Categorisation; Text mining; Text analytics; Kibana; Natural Language Processing; Elasticsearch |
Information about study
Study programme: | Aplikovaná informatika/Informační systémy a technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information Technologies |
Information on submission and defense
Date of assignment: | 3. 3. 2014 |
---|---|
Date of submission: | 5. 12. 2014 |
Date of defense: | 2. 6. 2015 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/46719/podrobnosti |
Files for download
Main text
Private file Download
Private file Download
Private annex
Private file Download
Private file Download