USING SYNTHETIC TEXT DATA TO TRAIN SENTIMENT ANALYSIS MODELS

Thesis title: USING SYNTHETIC TEXT DATA TO TRAIN SENTIMENT ANALYSIS MODELS
Author: Frolov, Ilia
Thesis type: Bachelor thesis
Supervisor: Chudán, David
Opponents: Vencovský, Filip
Thesis language: English
Abstract:
The explosive growth of digital text data presents many opportunities and challenges, especially in the area of sentiment analysis. A common problem is the imbalance of datasets, where one sentiment class significantly outperforms others, resulting in prediction bias. In this study, the class imbalance problem is addressed by creating synthetic data using GPT-2, a state-of-the-art generative language model. Comprehensive experiments were conducted using logistic regression, long term short-term memory (LSTM), and bidirectional encoding representations from transformers (BERT) models. The evaluation showed significant results, in particular BERT, which achieved accuracies up to 74.2% when trained solely on synthetic data. This highlights the value of using synthetic data in NLP applications. The study suggests opportunities for future research using more advanced language models and broader NLP applications.
Keywords: Synthetic data; GPT-2; Sentiment analysis; Logistic Regression; LSTM; BERT; Class imbalance; Data augmentation; NLP
Thesis title: Využití syntetických textových dat pro trénování modelů analýzy sentimentu
Author: Frolov, Ilia
Thesis type: Bakalářská práce
Supervisor: Chudán, David
Opponents: Vencovský, Filip
Thesis language: English
Abstract:
Explozivní nárůst digitálních textových dat představuje mnoho příležitostí a výzev, zejména v oblasti analýzy sentimentu. Častým problémem je nevyváženost souborů dat, kdy jedna třída sentimentu výrazně převyšuje ostatní, což vede k predikčnímu zkreslení. V této studii je problém nevyváženosti tříd řešen vytvořením syntetických dat pomocí GPT-2, nejmodernějšího generativního modelu jazyka. Byly provedeny rozsáhlé experimenty s využitím modelů logistické regrese, dlouhé termínové krátkodobé paměti (LSTM) a obousměrného kódování reprezentace z transformátorů (BERT). Vyhodnocení ukázalo významné výsledky, v zejména BERT, který dosáhl přesnosti až 74,2 %, když byl trénován pouze na syntetických datech. To zdůrazňuje hodnotu používání syntetických dat v aplikacích NLP. Studie naznačuje možnosti budoucího výzkumu s využitím pokročilejších jazykových modelů a širších aplikací NLP.
Keywords: GPT-2; logistická regrese; nerovnováha dat; Syntetická data; NLP; analýza sentimentu; LSTM; BERT; rozšíření dat

Information about study

Study programme: Data Analytics
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 29. 10. 2024
Date of submission: 3. 5. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: