Využití sémantické expanze ve vektorové reprezentaci dokumentů pro hierarchickou klasifikaci
Název práce: | Využití sémantické expanze ve vektorové reprezentaci dokumentů pro hierarchickou klasifikaci |
---|---|
Autor(ka) práce: | Pham, Son Tung |
Typ práce: | Diplomová práce |
Vedoucí práce: | Kliegr, Tomáš |
Oponenti práce: | Zamazal, Ondřej |
Jazyk práce: | Česky |
Abstrakt: | Diplomová práce se zabývá tématem klasifikace textových dokumentů, přesněji o klasifikaci hierarchickou. Práce čtenáře seznámí s vybranými metodami reprezentace textových dokumentů a klasifikačními algoritmy. Popíše základní aspekty hierarchické klasifikace a způsoby řešení problému klasifikace do hierarchie tříd. Tato práce představuje Python implementaci hierarchického klasifikátoru využívající sémantickou expanzi pro rozšíření vektorové reprezentace dokumentu. Cílem práce je otestovat, zda sémantická expanze vede ke zlepšení výsledků hierarchické klasifikace. Použitá metoda sémantické expanze spočívá v agregaci vektorové reprezentace klasifikovaného dokumentu s vektorovou reprezentací jemu podobných dokumentů. V rámci práce je otestováno několik agregačních funkcí a konfigurací klasifikátoru. Experimentální výsledky ukazují, že použití sémantické expanze a jistých agregačních funkcí vede ke statisticky významnému zlepšení výsledků klasifikace. |
Klíčová slova: | Klasifikace textu; SVM; LHD; BOA |
Název práce: | Use of semantic expansion in vector representation of documents for hierarchical classification |
---|---|
Autor(ka) práce: | Pham, Son Tung |
Typ práce: | Diploma thesis |
Vedoucí práce: | Kliegr, Tomáš |
Oponenti práce: | Zamazal, Ondřej |
Jazyk práce: | Česky |
Abstrakt: | This master’s thesis deals with the topic of text classification more precisely with hierarchical text classification. Readers of this thesis will be introduced to a few selected methods of text document representation and classification algorithms. It describes fundamental aspects of hierarchical classification and ways how to solve the problem of classification into a hierarchy of classes. This work presents a Python implementation of a hierarchical classifier that uses semantic expansion to extend the vector representation of a document. The goal of this thesis is to prove whether the use of semantic expansion leads to improved results of hierarchical expansion. The semantic expansion method in question lies in the aggregation of the vector representation of a classified document with the vector representations of similar documents. In this thesis, several aggregation functions and classifier configurations are tested. Experimental results show that the use of semantic expansion and certain aggregation functions leads to a statistically significant improvement in the classification results. |
Klíčová slova: | SVM; LHD; BOA; Text classification |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 15. 11. 2018 |
---|---|
Datum podání práce: | 4. 5. 2020 |
Datum obhajoby: | 4. 6. 2020 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/67745/podrobnosti |