Využití syntetických textových dat pro trénování modelů analýzy sentimentu
Název práce: | USING SYNTHETIC TEXT DATA TO TRAIN SENTIMENT ANALYSIS MODELS |
---|---|
Autor(ka) práce: | Frolov, Ilia |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Chudán, David |
Oponenti práce: | Vencovský, Filip |
Jazyk práce: | English |
Abstrakt: | The explosive growth of digital text data presents many opportunities and challenges, especially in the area of sentiment analysis. A common problem is the imbalance of datasets, where one sentiment class significantly outperforms others, resulting in prediction bias. In this study, the class imbalance problem is addressed by creating synthetic data using GPT-2, a state-of-the-art generative language model. Comprehensive experiments were conducted using logistic regression, long term short-term memory (LSTM), and bidirectional encoding representations from transformers (BERT) models. The evaluation showed significant results, in particular BERT, which achieved accuracies up to 74.2% when trained solely on synthetic data. This highlights the value of using synthetic data in NLP applications. The study suggests opportunities for future research using more advanced language models and broader NLP applications. |
Klíčová slova: | Synthetic data; GPT-2; Sentiment analysis; Logistic Regression; LSTM; BERT; Class imbalance; Data augmentation; NLP |
Název práce: | Využití syntetických textových dat pro trénování modelů analýzy sentimentu |
---|---|
Autor(ka) práce: | Frolov, Ilia |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Chudán, David |
Oponenti práce: | Vencovský, Filip |
Jazyk práce: | English |
Abstrakt: | Explozivní nárůst digitálních textových dat představuje mnoho příležitostí a výzev, zejména v oblasti analýzy sentimentu. Častým problémem je nevyváženost souborů dat, kdy jedna třída sentimentu výrazně převyšuje ostatní, což vede k predikčnímu zkreslení. V této studii je problém nevyváženosti tříd řešen vytvořením syntetických dat pomocí GPT-2, nejmodernějšího generativního modelu jazyka. Byly provedeny rozsáhlé experimenty s využitím modelů logistické regrese, dlouhé termínové krátkodobé paměti (LSTM) a obousměrného kódování reprezentace z transformátorů (BERT). Vyhodnocení ukázalo významné výsledky, v zejména BERT, který dosáhl přesnosti až 74,2 %, když byl trénován pouze na syntetických datech. To zdůrazňuje hodnotu používání syntetických dat v aplikacích NLP. Studie naznačuje možnosti budoucího výzkumu s využitím pokročilejších jazykových modelů a širších aplikací NLP. |
Klíčová slova: | GPT-2; logistická regrese; nerovnováha dat; Syntetická data; NLP; analýza sentimentu; LSTM; BERT; rozšíření dat |
Informace o studiu
Studijní program / obor: | Data Analytics |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 29. 10. 2024 |
---|---|
Datum podání práce: | 3. 5. 2025 |
Datum obhajoby: | 16. 6. 2025 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/90135/podrobnosti |