Aplikace textové analytiky v utilitní společnosti

Název práce: Aplikace textové analytiky v utilitní společnosti
Autor(ka) práce: Krasňan, Michal
Typ práce: Diplomová práce
Vedoucí práce: Novotný, Ota
Oponenti práce: Bruckner, Tomáš
Jazyk práce: Česky
Abstrakt:
Diplomová práce se zabývá oblastí vytěžování dat z textu. V dnešní době je velmi důležité získávat dostupné informace, ale objem textu se neustále zvětšuje. Popsaný problém je motivací této práce, která v teoretické části popisuje obvyklé zdroje dat, jako jsou emaily nebo webové stránky. Dále následuje popis základních struktur textu, znaků, slov, vět, odstavců a dokumentů, včetně typických problémů provázejících jejich zpracování. Dalším krokem je předzpracování dat, kde jsou popsány obvyklé postupy úpravy vstupních textů, které vedou ke zlepšení výsledků analýzy. Konkrétně jde o sjednocení velikosti písmen, kontrolu pravopisu, detekci vět, tokenizaci, stemming a lemmatizaci, odstranění stop slov, rozšíření pojmu, označení slovních druhů a syntaktickou analýzu. Po popisu těchto postupů práce pokračuje modelovacími metodami, tedy způsoby, jak ze zpracovaných dat vytěžit informace. Popsány jsou vyhledávací indexy, extrakce pojmenovaných entit, analýza sentimentu, klasifikace, shluková analýza, sumarizace a odpovídání na otázky. Poslední teoretickou částí je vizualizace, ve které jsou popsány možnosti zobrazení vytěžených informací. V praktické části dochází k implementaci třídění příchozích emailů pomocí nástroje Elasticsearch se zapojením preprocesingových metod. Dosažená úspěšnost klasifikace je přes sedmdesát pět procent. Ve stejném nástroji jsou také zpracována data z Net Promoter Score, která jsou vizualizována ve formě analytického dashboardu v aplikaci Kibana.
Klíčová slova: Textová analytika; Kategorizace textu; Kibana; Elasticsearch; Dolování z textu; Zpracování přirozeného jazyka; Net Promoter Score
Název práce: Application of text analytics in an utility company
Autor(ka) práce: Krasňan, Michal
Typ práce: Diploma thesis
Vedoucí práce: Novotný, Ota
Oponenti práce: Bruckner, Tomáš
Jazyk práce: Česky
Abstrakt:
This thesis deals with the extraction of data from the text. Motivations for this thesis are growing volumes of text and never ending need of information. To tackle this problem there are described usual sources of textual data -- customers' emails or websites, as well as basic structures such as characters, words, paragraphs and documents and typical problems that occurs during its processing. Next step is to depict few preprocessing methods to gain some leverage in the upcoming analysis, specifically case matching, spell-check, sentence detection, tokenization, stemming and lemmatization, stop-words removal, term expansion, part of speech tagging and parsing. When the data is ready, it's possible to involve modeling methods, which extract information from data, namely search index, named entity extraction, sentiment analysis, classification, clustering, summarization and question answering. Last theoretical part is visualization, which enables showing extracted information in user friendly way. The practical part consists of two cases of implementation. First, there is an email classification using Elasticsearch and preprocessing methods which achieved over 75 % correctly classified emails. Second, the same tool and different preprocessing is used to process data of Net Promoter Score which is later visualized in Kibana as an analytical dashboard.
Klíčová slova: Net Promoter Score; Text Categorisation; Text mining; Text analytics; Kibana; Natural Language Processing; Elasticsearch

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační systémy a technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 3. 3. 2014
Datum podání práce: 5. 12. 2014
Datum obhajoby: 2. 6. 2015
Identifikátor v systému InSIS: https://insis.vse.cz/zp/46719/podrobnosti

Soubory ke stažení

Hlavní práce
Neveřejný soubor
Stáhnout
Neveřejná příloha
Neveřejný soubor
Stáhnout
    Poslední aktualizace: