Empirické srovnání technik augmentace textu v neuronové klasifikaci textu

Název práce: An Empirical Comparison of Text Augmentation Techniques in Neural Text Classification
Autor(ka) práce: Tranová, Phuong Nhi
Typ práce: Bachelor thesis
Vedoucí práce: Zamazal, Ondřej
Oponenti práce: Vacura, Miroslav
Jazyk práce: English
Abstrakt:
Text classification is a fundamental task in natural language processing, and its performance depends heavily on the availability of sufficient training data. Text data augmentation (TDA) offers a way to artificially expand datasets by generating semantically similar variations of existing samples, potentially improving model generalization and robustness. The goal of this thesis is to review TDA techniques with a focus on their application in neural text classification, to select suitable datasets and architectures, and to empirically compare the effectiveness of three augmentation methods: Easy Data Augmentation (EDA), Back-Translation, and a combined WordNet and GloVe embedding approach. The selected models are LSTM and Bidirectional LSTM, chosen to isolate the effect of augmentation without the confounding influence of large-scale pretraining. Experiments are conducted on two datasets with distinct linguistic characteristics — the ECtHR A legal dataset (formal, multi-label) and a Recipe Reviews dataset (informal, multi-class) — under both a 50% and a 100% training data regime. The evaluation addresses three aspects: the overall impact of augmentation on classification performance, the relative benefit of augmentation in low-data versus full-data settings, and the effectiveness of individual techniques across domains with different linguistic properties. The results show that augmentation effects are highly dataset- and technique-dependent: WN+GloVe achieves the strongest performance on formal legal text at negligible computational cost, while Back-Translation yields the best results on informal reviews through structural paraphrasing, albeit at substantially higher cost. EDA underperforms on short informal reviews where random word-level perturbations risk destroying sentiment-bearing content. Overall, the thesis provides a theoretical background on TDA and neural text classification and an empirical comparison of augmentation techniques across multiple evaluation criteria including predictive performance, class-level analysis, and computational cost.
Klíčová slova: text classification; LSTM; text data augmentation; natural language processing; Bidirectional LSTM
Název práce: Empirické srovnání technik augmentace textu v neuronové klasifikaci textu
Autor(ka) práce: Tranová, Phuong Nhi
Typ práce: Bakalářská práce
Vedoucí práce: Zamazal, Ondřej
Oponenti práce: Vacura, Miroslav
Jazyk práce: English
Abstrakt:
Klasifikace textu je jedním ze základních úloh zpracování přirozeného jazyka a její výkonnost závisí do značné míry na dostupnosti dostatečného objemu trénovacích dat. Augmentace textových dat (TDA) nabízí způsob, jak uměle rozšířit datové sady generováním sémanticky podobných variant existujících vzorků, čímž potenciálně zlepšuje generalizaci a robustnost modelů. Cílem této práce je poskytnout přehled technik TDA se zaměřením na jejich využití v neuronové klasifikaci textu, vybrat vhodné datové sady a architektury a empiricky porovnat účinnost tří augmentačních metod: Easy Data Augmentation (EDA), Back-Translation (zpětný překlad) a kombinovaného přístupu WordNet a GloVe embeddingu. Zvolenými modely jsou LSTM a obousměrné LSTM (BiLSTM), vybrané s cílem izolovat vliv augmentace bez zkreslujícího efektu rozsáhlého předtrénování. Experimenty jsou provedeny na dvou datatech s odlišnými jazykovými charakteristikami — právní dataset ECtHR A (formální, multi-label) a dataset Recipe Reviews (neformální, multi-class) — v režimu 50 % a 100 % trénovacích dat. Hodnocení se zaměřuje na tři aspekty: celkový dopad augmentace na klasifikační výkonnost, relativní přínos augmentace v podmínkách omezeného množství dat oproti plnému objemu dat a účinnost jednotlivých technik napříč doménami s různými jazykovými vlastnostmi. Výsledky ukazují, že efekt augmentace je silně závislý na datasetu a zvolené technice: WN+GloVe dosahuje nejsilnější výkonnosti na formálním právním textu při zanedbatelných výpočetních nákladech, zatímco Back-Translation (zpětný překlad) přináší nejlepší výsledky na neformálních recenzích prostřednictvím strukturálního parafrázování, avšak při výrazně vyšších výpočetních nákladech. EDA dosahuje slabších výsledků na krátkých neformálních recenzích, kde náhodné perturbace na úrovni slov riskují zničení slov nesoucích sentiment. Celkově práce poskytuje teoretický základ o TDA a neuronové klasifikaci textu a empirické srovnání augmentačních technik napříč několika hodnotícími kritérii včetně prediktivní výkonnosti, analýzy na úrovni tříd a výpočetních nákladů.
Klíčová slova: augmentace textových dat; klasifikace textu; obousměrný LSTM (BiLSTM); zpracování přirozeného jazyka; LSTM

Informace o studiu

Studijní program / obor: Data Analytics
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 24. 6. 2025
Datum podání práce: 11. 5. 2026
Datum obhajoby: 15. 6. 2026
Identifikátor v systému InSIS: https://insis.vse.cz/zp/92825/podrobnosti

Soubory ke stažení

    Poslední aktualizace: