Use of semantic expansion in vector representation of documents for hierarchical classification
Thesis title: | Využití sémantické expanze ve vektorové reprezentaci dokumentů pro hierarchickou klasifikaci |
---|---|
Author: | Pham, Son Tung |
Thesis type: | Diplomová práce |
Supervisor: | Kliegr, Tomáš |
Opponents: | Zamazal, Ondřej |
Thesis language: | Česky |
Abstract: | Diplomová práce se zabývá tématem klasifikace textových dokumentů, přesněji o klasifikaci hierarchickou. Práce čtenáře seznámí s vybranými metodami reprezentace textových dokumentů a klasifikačními algoritmy. Popíše základní aspekty hierarchické klasifikace a způsoby řešení problému klasifikace do hierarchie tříd. Tato práce představuje Python implementaci hierarchického klasifikátoru využívající sémantickou expanzi pro rozšíření vektorové reprezentace dokumentu. Cílem práce je otestovat, zda sémantická expanze vede ke zlepšení výsledků hierarchické klasifikace. Použitá metoda sémantické expanze spočívá v agregaci vektorové reprezentace klasifikovaného dokumentu s vektorovou reprezentací jemu podobných dokumentů. V rámci práce je otestováno několik agregačních funkcí a konfigurací klasifikátoru. Experimentální výsledky ukazují, že použití sémantické expanze a jistých agregačních funkcí vede ke statisticky významnému zlepšení výsledků klasifikace. |
Keywords: | Klasifikace textu; SVM; LHD; BOA |
Thesis title: | Use of semantic expansion in vector representation of documents for hierarchical classification |
---|---|
Author: | Pham, Son Tung |
Thesis type: | Diploma thesis |
Supervisor: | Kliegr, Tomáš |
Opponents: | Zamazal, Ondřej |
Thesis language: | Česky |
Abstract: | This master’s thesis deals with the topic of text classification more precisely with hierarchical text classification. Readers of this thesis will be introduced to a few selected methods of text document representation and classification algorithms. It describes fundamental aspects of hierarchical classification and ways how to solve the problem of classification into a hierarchy of classes. This work presents a Python implementation of a hierarchical classifier that uses semantic expansion to extend the vector representation of a document. The goal of this thesis is to prove whether the use of semantic expansion leads to improved results of hierarchical expansion. The semantic expansion method in question lies in the aggregation of the vector representation of a classified document with the vector representations of similar documents. In this thesis, several aggregation functions and classifier configurations are tested. Experimental results show that the use of semantic expansion and certain aggregation functions leads to a statistically significant improvement in the classification results. |
Keywords: | SVM; LHD; BOA; Text classification |
Information about study
Study programme: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 15. 11. 2018 |
---|---|
Date of submission: | 4. 5. 2020 |
Date of defense: | 4. 6. 2020 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/67745/podrobnosti |