Use of semantic expansion in vector representation of documents for hierarchical classification

Thesis title: Využití sémantické expanze ve vektorové reprezentaci dokumentů pro hierarchickou klasifikaci
Author: Pham, Son Tung
Thesis type: Diplomová práce
Supervisor: Kliegr, Tomáš
Opponents: Zamazal, Ondřej
Thesis language: Česky
Abstract:
Diplomová práce se zabývá tématem klasifikace textových dokumentů, přesněji o klasifikaci hierarchickou. Práce čtenáře seznámí s vybranými metodami reprezentace textových dokumentů a klasifikačními algoritmy. Popíše základní aspekty hierarchické klasifikace a způsoby řešení problému klasifikace do hierarchie tříd. Tato práce představuje Python implementaci hierarchického klasifikátoru využívající sémantickou expanzi pro rozšíření vektorové reprezentace dokumentu. Cílem práce je otestovat, zda sémantická expanze vede ke zlepšení výsledků hierarchické klasifikace. Použitá metoda sémantické expanze spočívá v agregaci vektorové reprezentace klasifikovaného dokumentu s vektorovou reprezentací jemu podobných dokumentů. V rámci práce je otestováno několik agregačních funkcí a konfigurací klasifikátoru. Experimentální výsledky ukazují, že použití sémantické expanze a jistých agregačních funkcí vede ke statisticky významnému zlepšení výsledků klasifikace.
Keywords: Klasifikace textu; SVM; LHD; BOA
Thesis title: Use of semantic expansion in vector representation of documents for hierarchical classification
Author: Pham, Son Tung
Thesis type: Diploma thesis
Supervisor: Kliegr, Tomáš
Opponents: Zamazal, Ondřej
Thesis language: Česky
Abstract:
This master’s thesis deals with the topic of text classification more precisely with hierarchical text classification. Readers of this thesis will be introduced to a few selected methods of text document representation and classification algorithms. It describes fundamental aspects of hierarchical classification and ways how to solve the problem of classification into a hierarchy of classes. This work presents a Python implementation of a hierarchical classifier that uses semantic expansion to extend the vector representation of a document. The goal of this thesis is to prove whether the use of semantic expansion leads to improved results of hierarchical expansion. The semantic expansion method in question lies in the aggregation of the vector representation of a classified document with the vector representations of similar documents. In this thesis, several aggregation functions and classifier configurations are tested. Experimental results show that the use of semantic expansion and certain aggregation functions leads to a statistically significant improvement in the classification results.
Keywords: SVM; LHD; BOA; Text classification

Information about study

Study programme: Aplikovaná informatika/Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 15. 11. 2018
Date of submission: 4. 5. 2020
Date of defense: 4. 6. 2020
Identifier in the InSIS system: https://insis.vse.cz/zp/67745/podrobnosti

Files for download

    Last update: