Thesis title: |
USING SYNTHETIC TEXT DATA TO TRAIN SENTIMENT ANALYSIS MODELS |
Author: |
Frolov, Ilia |
Thesis type: |
Bachelor thesis |
Supervisor: |
Chudán, David |
Opponents: |
Vencovský, Filip |
Thesis language: |
English |
Abstract: |
The explosive growth of digital text data presents many opportunities and challenges, especially in the area of sentiment analysis. A common problem is the imbalance of datasets, where one sentiment class significantly outperforms others, resulting in prediction bias. In this study, the class imbalance problem is addressed by creating synthetic data using GPT-2, a state-of-the-art generative language model. Comprehensive experiments were conducted using logistic regression, long term short-term memory (LSTM), and bidirectional encoding representations from transformers (BERT) models. The evaluation showed significant results, in particular BERT, which achieved accuracies up to 74.2% when trained solely on synthetic data. This highlights the value of using synthetic data in NLP applications. The study suggests opportunities for future research using more advanced language models and broader NLP applications. |
Keywords: |
Synthetic data; GPT-2; Sentiment analysis; Logistic Regression; LSTM; BERT; Class imbalance; Data augmentation; NLP |
Thesis title: |
Využití syntetických textových dat pro trénování modelů analýzy sentimentu |
Author: |
Frolov, Ilia |
Thesis type: |
Bakalářská práce |
Supervisor: |
Chudán, David |
Opponents: |
Vencovský, Filip |
Thesis language: |
English |
Abstract: |
Explozivní nárůst digitálních textových dat představuje mnoho příležitostí a výzev, zejména v oblasti analýzy sentimentu. Častým problémem je nevyváženost souborů dat, kdy jedna třída sentimentu výrazně převyšuje ostatní, což vede k predikčnímu zkreslení. V této studii je problém nevyváženosti tříd řešen vytvořením syntetických dat pomocí GPT-2, nejmodernějšího generativního modelu jazyka. Byly provedeny rozsáhlé experimenty s využitím modelů logistické regrese, dlouhé termínové krátkodobé paměti (LSTM) a obousměrného kódování reprezentace z transformátorů (BERT). Vyhodnocení ukázalo významné výsledky, v zejména BERT, který dosáhl přesnosti až 74,2 %, když byl trénován pouze na syntetických datech. To zdůrazňuje hodnotu používání syntetických dat v aplikacích NLP. Studie naznačuje možnosti budoucího výzkumu s využitím pokročilejších jazykových modelů a širších aplikací NLP. |
Keywords: |
GPT-2; logistická regrese; nerovnováha dat; Syntetická data; NLP; analýza sentimentu; LSTM; BERT; rozšíření dat |
Information about study
Study programme: |
Data Analytics |
Type of study programme: |
Bakalářský studijní program |
Assigned degree: |
Bc. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Informatics and Statistics |
Department: |
Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: |
29. 10. 2024 |
Date of submission: |
3. 5. 2025 |
Date of defense: |
2025 |
Files for download
The files will be available after the defense of the thesis.