Text Analytics of of Terms by Using Definitions in a Banking Company
Thesis title: | Textová analytika definic pojmů v bankovní společnosti |
---|---|
Author: | Koucká, Pavlína |
Thesis type: | Diplomová práce |
Supervisor: | Novotný, Ota |
Opponents: | Pour, Jan |
Thesis language: | Česky |
Abstract: | Diplomová práce se zabývá zpracováním textu, konkrétněji textovou analytikou a jejím přesnějším využitím. Je rozdělena do dvou základních částí. První část diplomové práce nejprve přibližuje možnosti zpracování textu, textovou analytiku a její příbuzné pojmy a vztahy mezi nimi. Je vysvětleno, co znamenají a čím se od sebe navzájem liší. Dále je představeno zadání a konkrétní data poskytnutá zadavatelskou firmou. Zadáním se rozumí přiřazení termínů ke konkrétním doménám na základě textové analytiky jejich definic. Aby tento úkol mohl být splněn, následně jsou představeny různé nástroje, které mohou být použity. V druhé části práce se nejprve vyzkouší tři vhodné nástroje pro přípravu dat. Jeden z nich je vybrán a následně použit i pro další zpracování, především pro následnou klasifikaci daných pojmů. Ve výsledku je u každého termínu určena procentuální náležitost až do tří konkrétních domén. |
Keywords: | textová analytika; textová analýza; klasifikace; řízený slovník |
Thesis title: | Text Analytics of of Terms by Using Definitions in a Banking Company |
---|---|
Author: | Koucká, Pavlína |
Thesis type: | Diploma thesis |
Supervisor: | Novotný, Ota |
Opponents: | Pour, Jan |
Thesis language: | Česky |
Abstract: | Diploma thesis is focused on text processing, more specifically on text analytics and its practical use. The thesis is divided into two main sections. The first section of the thesis introduces the possibilities of text processing, text analytics and its related concepts and the relationships between them. It explains what they mean and how they differ from each other. Furthermore, the assignment and the specific data provided by interested company are presented. The assignment is to match terms to specific domains based on text analytics of their definitions. Various tools that can be used to accomplish this task are then presented. In the second section of the thesis, three suitable data preparation tools are tested. One of them is selected and used for further processing, being predominantly classification of the given concepts. As an outcome, the percentage relevance of up to three specific domains is determined for each term. |
Keywords: | text analytics; classification; controlled vocabulary; text analysis |
Information about study
Study programme: | Informační systémy a technologie/Business Intelligence |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information Technologies |
Information on submission and defense
Date of assignment: | 25. 1. 2022 |
---|---|
Date of submission: | 4. 5. 2022 |
Date of defense: | 30. 5. 2022 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/79438/podrobnosti |