Text Analytics of of Terms by Using Definitions in a Banking Company

Thesis title: Textová analytika definic pojmů v bankovní společnosti
Author: Koucká, Pavlína
Thesis type: Diplomová práce
Supervisor: Novotný, Ota
Opponents: Pour, Jan
Thesis language: Česky
Abstract:
Diplomová práce se zabývá zpracováním textu, konkrétněji textovou analytikou a jejím přesnějším využitím. Je rozdělena do dvou základních částí. První část diplomové práce nejprve přibližuje možnosti zpracování textu, textovou analytiku a její příbuzné pojmy a vztahy mezi nimi. Je vysvětleno, co znamenají a čím se od sebe navzájem liší. Dále je představeno zadání a konkrétní data poskytnutá zadavatelskou firmou. Zadáním se rozumí přiřazení termínů ke konkrétním doménám na základě textové analytiky jejich definic. Aby tento úkol mohl být splněn, následně jsou představeny různé nástroje, které mohou být použity. V druhé části práce se nejprve vyzkouší tři vhodné nástroje pro přípravu dat. Jeden z nich je vybrán a následně použit i pro další zpracování, především pro následnou klasifikaci daných pojmů. Ve výsledku je u každého termínu určena procentuální náležitost až do tří konkrétních domén.
Keywords: textová analytika; textová analýza; klasifikace; řízený slovník
Thesis title: Text Analytics of of Terms by Using Definitions in a Banking Company
Author: Koucká, Pavlína
Thesis type: Diploma thesis
Supervisor: Novotný, Ota
Opponents: Pour, Jan
Thesis language: Česky
Abstract:
Diploma thesis is focused on text processing, more specifically on text analytics and its practical use. The thesis is divided into two main sections. The first section of the thesis introduces the possibilities of text processing, text analytics and its related concepts and the relationships between them. It explains what they mean and how they differ from each other. Furthermore, the assignment and the specific data provided by interested company are presented. The assignment is to match terms to specific domains based on text analytics of their definitions. Various tools that can be used to accomplish this task are then presented. In the second section of the thesis, three suitable data preparation tools are tested. One of them is selected and used for further processing, being predominantly classification of the given concepts. As an outcome, the percentage relevance of up to three specific domains is determined for each term.
Keywords: text analytics; classification; controlled vocabulary; text analysis

Information about study

Study programme: Informační systémy a technologie/Business Intelligence
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 25. 1. 2022
Date of submission: 4. 5. 2022
Date of defense: 30. 5. 2022
Identifier in the InSIS system: https://insis.vse.cz/zp/79438/podrobnosti

Files for download

    Last update: