Využití syntetických textových dat pro trénování modelů analýzy sentimentu

English
Česky

Název práce:	USING SYNTHETIC TEXT DATA TO TRAIN SENTIMENT ANALYSIS MODELS
Autor(ka) práce:	Frolov, Ilia
Typ práce:	Bachelor thesis
Vedoucí práce:	Chudán, David
Oponenti práce:	Vencovský, Filip
Jazyk práce:	English
Abstrakt:	The explosive growth of digital text data presents many opportunities and challenges, especially in the area of sentiment analysis. A common problem is the imbalance of datasets, where one sentiment class significantly outperforms others, resulting in prediction bias. In this study, the class imbalance problem is addressed by creating synthetic data using GPT-2, a state-of-the-art generative language model. Comprehensive experiments were conducted using logistic regression, long term short-term memory (LSTM), and bidirectional encoding representations from transformers (BERT) models. The evaluation showed significant results, in particular BERT, which achieved accuracies up to 74.2% when trained solely on synthetic data. This highlights the value of using synthetic data in NLP applications. The study suggests opportunities for future research using more advanced language models and broader NLP applications.
Klíčová slova:	Synthetic data; GPT-2; Sentiment analysis; Logistic Regression; LSTM; BERT; Class imbalance; Data augmentation; NLP

Název práce:	Využití syntetických textových dat pro trénování modelů analýzy sentimentu
Autor(ka) práce:	Frolov, Ilia
Typ práce:	Bakalářská práce
Vedoucí práce:	Chudán, David
Oponenti práce:	Vencovský, Filip
Jazyk práce:	English
Abstrakt:	Explozivní nárůst digitálních textových dat představuje mnoho příležitostí a výzev, zejména v oblasti analýzy sentimentu. Častým problémem je nevyváženost souborů dat, kdy jedna třída sentimentu výrazně převyšuje ostatní, což vede k predikčnímu zkreslení. V této studii je problém nevyváženosti tříd řešen vytvořením syntetických dat pomocí GPT-2, nejmodernějšího generativního modelu jazyka. Byly provedeny rozsáhlé experimenty s využitím modelů logistické regrese, dlouhé termínové krátkodobé paměti (LSTM) a obousměrného kódování reprezentace z transformátorů (BERT). Vyhodnocení ukázalo významné výsledky, v zejména BERT, který dosáhl přesnosti až 74,2 %, když byl trénován pouze na syntetických datech. To zdůrazňuje hodnotu používání syntetických dat v aplikacích NLP. Studie naznačuje možnosti budoucího výzkumu s využitím pokročilejších jazykových modelů a širších aplikací NLP.
Klíčová slova:	GPT-2; logistická regrese; nerovnováha dat; Syntetická data; NLP; analýza sentimentu; LSTM; BERT; rozšíření dat

Informace o studiu

Studijní program / obor:	Data Analytics
Typ studijního programu:	Bakalářský studijní program
Přidělovaná hodnost:	Bc.
Instituce přidělující hodnost:	Vysoká škola ekonomická v Praze
Fakulta:	Fakulta informatiky a statistiky
Katedra:	Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce:	29. 10. 2024
Datum podání práce:	3. 5. 2025
Datum obhajoby:	16. 6. 2025
Identifikátor v systému InSIS:	https://insis.vse.cz/zp/90135/podrobnosti

Soubory ke stažení

Hlavní práce
90135_froi00.pdf, 1.1 MB Stáhnout

Oponentura
86260_xvenf00.pdf, 130.4 kB Stáhnout

Hodnocení vedoucího
90135_xchud01.pdf, 114 kB Stáhnout