Sentiment analysis for comments on social networks using classification methods

Thesis title: Analýza sentimentu pro komentáře na sociálních sítích pomocí řešení úlohy klasifikace
Author: Arsenych, Olha
Thesis type: Diplomová práce
Supervisor: Chudán, David
Opponents: Strossa, Petr
Thesis language: Česky
Abstract:
Obsahem práce je analýza sentimentu na sociální síti Twitter. Popisná část se zabývá zpracováním přirozeného jazyka (NLP) a aplikací NLP. Také je rozebrán pojem sentiment a jazykové metody pro analýzu sentimentu, například tokenizace, POS tagování, stematizace a lematizace, TF-IDF, word2vec, dál jsou ukázané metody strojového učení pro textovou analýzu: algoritmus k-nejbližších sousedů, multinomický naivní Bayesův klasifikátor, SVM, neuronová síť a BERT model.Praktická část je věnována implementaci, experimentům a srovnaní výsledků metod strojového učení. Bylo implementováno pět různých metod, které zahrnují modul přípravy textu, modul extrakce příznaků a klasifikační modul. Tyto metody jsou SVM, k-nejbližších sousedů, multinomický Bayesův klasifikátor, BERT model a word2vec v kombinaci s SVM. Datová sada pro učení a testovaní klasifikátorů byla stáhnuta ze serveru Kaggle a obsahuje komentáře s označeným sentimentem ze sociální sítě Twitter.Experimenty jsou zaměřeny především na porovnání výsledků metod strojového učení a efektivnost využití jednotlivých metod přípravy a extrakce příznaků z textu. Pro hodnocení klasifikace se používaly takové metriky jako správnost, přesnost, úplnost a F-míra. Podle experimentů nejlepším algoritmem z těchto popsaných(studovaných) je BERT model.
Keywords: klasifikátor; analýza sentimentu; NLP; tokenizace; BERT
Thesis title: Sentiment analysis for comments on social networks using classification methods
Author: Arsenych, Olha
Thesis type: Diploma thesis
Supervisor: Chudán, David
Opponents: Strossa, Petr
Thesis language: Česky
Abstract:
The content of this thesis is Twitter sentiment analysis. In descriptive part is explained natural language processing(NLP), application of NLP, the concept of sentiment and language methods for sentiment analysis, such as tokenization, POS tagging, stematization and lemmatization, TF-IDF, word2vec, machine learning methods for text analysis, such as k- nearest neighbors, multinomic naive Bayesian classifier , BERT model, neural network and SVM.The practical part is devoted to the implementation, experiments and comparison of the results of classifiers. Were implemented five different methods, which include a text preparation module, a feature extraction module and a classification module.These methods are SVM, k-nearest neighbors, multinomically Bayes classifier, BERT model, and word2vec in combination with SVM. The dataset for training and testing classifiers was downloaded from the Kaggle server and contains comments with tagged sentiment from Twitter social network.The experiments are mainly focused on the comparison of machine learning methods and the effectiveness of the application of different methods for preparation and feature extraction from the text. Metrics such as accuracy, precision, recall and F1 score were used to evaluate the classification.According to the experiments, the best algorithm of the ones described (studied) is the BERT model.
Keywords: classifier; tokenization; BERT; NLP; sentiment analysis

Information about study

Study programme: Aplikovaná informatika/Podniková informatika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 29. 10. 2019
Date of submission: 4. 5. 2020
Date of defense: 3. 6. 2020
Identifier in the InSIS system: https://insis.vse.cz/zp/71468/podrobnosti

Files for download

    Last update: