Empirické srovnání technik augmentace textu v neuronové klasifikaci textu
| Název práce: | An Empirical Comparison of Text Augmentation Techniques in Neural Text Classification |
|---|---|
| Autor(ka) práce: | Tranová, Phuong Nhi |
| Typ práce: | Bachelor thesis |
| Vedoucí práce: | Zamazal, Ondřej |
| Oponenti práce: | Vacura, Miroslav |
| Jazyk práce: | English |
| Abstrakt: | Text classification is a fundamental task in natural language processing, and its performance depends heavily on the availability of sufficient training data. Text data augmentation (TDA) offers a way to artificially expand datasets by generating semantically similar variations of existing samples, potentially improving model generalization and robustness. The goal of this thesis is to review TDA techniques with a focus on their application in neural text classification, to select suitable datasets and architectures, and to empirically compare the effectiveness of three augmentation methods: Easy Data Augmentation (EDA), Back-Translation, and a combined WordNet and GloVe embedding approach. The selected models are LSTM and Bidirectional LSTM, chosen to isolate the effect of augmentation without the confounding influence of large-scale pretraining. Experiments are conducted on two datasets with distinct linguistic characteristics — the ECtHR A legal dataset (formal, multi-label) and a Recipe Reviews dataset (informal, multi-class) — under both a 50% and a 100% training data regime. The evaluation addresses three aspects: the overall impact of augmentation on classification performance, the relative benefit of augmentation in low-data versus full-data settings, and the effectiveness of individual techniques across domains with different linguistic properties. The results show that augmentation effects are highly dataset- and technique-dependent: WN+GloVe achieves the strongest performance on formal legal text at negligible computational cost, while Back-Translation yields the best results on informal reviews through structural paraphrasing, albeit at substantially higher cost. EDA underperforms on short informal reviews where random word-level perturbations risk destroying sentiment-bearing content. Overall, the thesis provides a theoretical background on TDA and neural text classification and an empirical comparison of augmentation techniques across multiple evaluation criteria including predictive performance, class-level analysis, and computational cost. |
| Klíčová slova: | text classification; LSTM; text data augmentation; natural language processing; Bidirectional LSTM |
| Název práce: | Empirické srovnání technik augmentace textu v neuronové klasifikaci textu |
|---|---|
| Autor(ka) práce: | Tranová, Phuong Nhi |
| Typ práce: | Bakalářská práce |
| Vedoucí práce: | Zamazal, Ondřej |
| Oponenti práce: | Vacura, Miroslav |
| Jazyk práce: | English |
| Abstrakt: | Klasifikace textu je jedním ze základních úloh zpracování přirozeného jazyka a její výkonnost závisí do značné míry na dostupnosti dostatečného objemu trénovacích dat. Augmentace textových dat (TDA) nabízí způsob, jak uměle rozšířit datové sady generováním sémanticky podobných variant existujících vzorků, čímž potenciálně zlepšuje generalizaci a robustnost modelů. Cílem této práce je poskytnout přehled technik TDA se zaměřením na jejich využití v neuronové klasifikaci textu, vybrat vhodné datové sady a architektury a empiricky porovnat účinnost tří augmentačních metod: Easy Data Augmentation (EDA), Back-Translation (zpětný překlad) a kombinovaného přístupu WordNet a GloVe embeddingu. Zvolenými modely jsou LSTM a obousměrné LSTM (BiLSTM), vybrané s cílem izolovat vliv augmentace bez zkreslujícího efektu rozsáhlého předtrénování. Experimenty jsou provedeny na dvou datatech s odlišnými jazykovými charakteristikami — právní dataset ECtHR A (formální, multi-label) a dataset Recipe Reviews (neformální, multi-class) — v režimu 50 % a 100 % trénovacích dat. Hodnocení se zaměřuje na tři aspekty: celkový dopad augmentace na klasifikační výkonnost, relativní přínos augmentace v podmínkách omezeného množství dat oproti plnému objemu dat a účinnost jednotlivých technik napříč doménami s různými jazykovými vlastnostmi. Výsledky ukazují, že efekt augmentace je silně závislý na datasetu a zvolené technice: WN+GloVe dosahuje nejsilnější výkonnosti na formálním právním textu při zanedbatelných výpočetních nákladech, zatímco Back-Translation (zpětný překlad) přináší nejlepší výsledky na neformálních recenzích prostřednictvím strukturálního parafrázování, avšak při výrazně vyšších výpočetních nákladech. EDA dosahuje slabších výsledků na krátkých neformálních recenzích, kde náhodné perturbace na úrovni slov riskují zničení slov nesoucích sentiment. Celkově práce poskytuje teoretický základ o TDA a neuronové klasifikaci textu a empirické srovnání augmentačních technik napříč několika hodnotícími kritérii včetně prediktivní výkonnosti, analýzy na úrovni tříd a výpočetních nákladů. |
| Klíčová slova: | augmentace textových dat; klasifikace textu; obousměrný LSTM (BiLSTM); zpracování přirozeného jazyka; LSTM |
Informace o studiu
| Studijní program / obor: | Data Analytics |
|---|---|
| Typ studijního programu: | Bakalářský studijní program |
| Přidělovaná hodnost: | Bc. |
| Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
| Fakulta: | Fakulta informatiky a statistiky |
| Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
| Datum zadání práce: | 24. 6. 2025 |
|---|---|
| Datum podání práce: | 11. 5. 2026 |
| Datum obhajoby: | 15. 6. 2026 |
| Identifikátor v systému InSIS: | https://insis.vse.cz/zp/92825/podrobnosti |