USING SYNTHETIC TEXT DATA TO TRAIN SENTIMENT ANALYSIS MODELS
Autor(ka) práce:
Frolov, Ilia
Typ práce:
Bachelor thesis
Vedoucí práce:
Chudán, David
Oponenti práce:
Vencovský, Filip
Jazyk práce:
English
Abstrakt:
The explosive growth of digital text data presents many opportunities and challenges, especially in the area of sentiment analysis. A common problem is the imbalance of datasets, where one sentiment class significantly outperforms others, resulting in prediction bias. In this study, the class imbalance problem is addressed by creating synthetic data using GPT-2, a state-of-the-art generative language model. Comprehensive experiments were conducted using logistic regression, long term short-term memory (LSTM), and bidirectional encoding representations from transformers (BERT) models. The evaluation showed significant results, in particular BERT, which achieved accuracies up to 74.2% when trained solely on synthetic data. This highlights the value of using synthetic data in NLP applications. The study suggests opportunities for future research using more advanced language models and broader NLP applications.
Klíčová slova:
Synthetic data; GPT-2; Sentiment analysis; Logistic Regression; LSTM; BERT; Class imbalance; Data augmentation; NLP
Název práce:
Využití syntetických textových dat pro trénování modelů analýzy sentimentu
Autor(ka) práce:
Frolov, Ilia
Typ práce:
Bakalářská práce
Vedoucí práce:
Chudán, David
Oponenti práce:
Vencovský, Filip
Jazyk práce:
English
Abstrakt:
Explozivní nárůst digitálních textových dat představuje mnoho příležitostí a výzev, zejména v oblasti analýzy sentimentu. Častým problémem je nevyváženost souborů dat, kdy jedna třída sentimentu výrazně převyšuje ostatní, což vede k predikčnímu zkreslení. V této studii je problém nevyváženosti tříd řešen vytvořením syntetických dat pomocí GPT-2, nejmodernějšího generativního modelu jazyka. Byly provedeny rozsáhlé experimenty s využitím modelů logistické regrese, dlouhé termínové krátkodobé paměti (LSTM) a obousměrného kódování reprezentace z transformátorů (BERT). Vyhodnocení ukázalo významné výsledky, v zejména BERT, který dosáhl přesnosti až 74,2 %, když byl trénován pouze na syntetických datech. To zdůrazňuje hodnotu používání syntetických dat v aplikacích NLP. Studie naznačuje možnosti budoucího výzkumu s využitím pokročilejších jazykových modelů a širších aplikací NLP.
Klíčová slova:
GPT-2; logistická regrese; nerovnováha dat; Syntetická data; NLP; analýza sentimentu; LSTM; BERT; rozšíření dat