Analýza sentimentu pro komentáře na sociálních sítích pomocí řešení úlohy klasifikace

Název práce: Analýza sentimentu pro komentáře na sociálních sítích pomocí řešení úlohy klasifikace
Autor(ka) práce: Arsenych, Olha
Typ práce: Diplomová práce
Vedoucí práce: Chudán, David
Oponenti práce: Strossa, Petr
Jazyk práce: Česky
Abstrakt:
Obsahem práce je analýza sentimentu na sociální síti Twitter. Popisná část se zabývá zpracováním přirozeného jazyka (NLP) a aplikací NLP. Také je rozebrán pojem sentiment a jazykové metody pro analýzu sentimentu, například tokenizace, POS tagování, stematizace a lematizace, TF-IDF, word2vec, dál jsou ukázané metody strojového učení pro textovou analýzu: algoritmus k-nejbližších sousedů, multinomický naivní Bayesův klasifikátor, SVM, neuronová síť a BERT model.Praktická část je věnována implementaci, experimentům a srovnaní výsledků metod strojového učení. Bylo implementováno pět různých metod, které zahrnují modul přípravy textu, modul extrakce příznaků a klasifikační modul. Tyto metody jsou SVM, k-nejbližších sousedů, multinomický Bayesův klasifikátor, BERT model a word2vec v kombinaci s SVM. Datová sada pro učení a testovaní klasifikátorů byla stáhnuta ze serveru Kaggle a obsahuje komentáře s označeným sentimentem ze sociální sítě Twitter.Experimenty jsou zaměřeny především na porovnání výsledků metod strojového učení a efektivnost využití jednotlivých metod přípravy a extrakce příznaků z textu. Pro hodnocení klasifikace se používaly takové metriky jako správnost, přesnost, úplnost a F-míra. Podle experimentů nejlepším algoritmem z těchto popsaných(studovaných) je BERT model.
Klíčová slova: klasifikátor; analýza sentimentu; NLP; tokenizace; BERT
Název práce: Sentiment analysis for comments on social networks using classification methods
Autor(ka) práce: Arsenych, Olha
Typ práce: Diploma thesis
Vedoucí práce: Chudán, David
Oponenti práce: Strossa, Petr
Jazyk práce: Česky
Abstrakt:
The content of this thesis is Twitter sentiment analysis. In descriptive part is explained natural language processing(NLP), application of NLP, the concept of sentiment and language methods for sentiment analysis, such as tokenization, POS tagging, stematization and lemmatization, TF-IDF, word2vec, machine learning methods for text analysis, such as k- nearest neighbors, multinomic naive Bayesian classifier , BERT model, neural network and SVM.The practical part is devoted to the implementation, experiments and comparison of the results of classifiers. Were implemented five different methods, which include a text preparation module, a feature extraction module and a classification module.These methods are SVM, k-nearest neighbors, multinomically Bayes classifier, BERT model, and word2vec in combination with SVM. The dataset for training and testing classifiers was downloaded from the Kaggle server and contains comments with tagged sentiment from Twitter social network.The experiments are mainly focused on the comparison of machine learning methods and the effectiveness of the application of different methods for preparation and feature extraction from the text. Metrics such as accuracy, precision, recall and F1 score were used to evaluate the classification.According to the experiments, the best algorithm of the ones described (studied) is the BERT model.
Klíčová slova: classifier; tokenization; BERT; NLP; sentiment analysis

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Podniková informatika
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 29. 10. 2019
Datum podání práce: 4. 5. 2020
Datum obhajoby: 3. 6. 2020
Identifikátor v systému InSIS: https://insis.vse.cz/zp/71468/podrobnosti

Soubory ke stažení

    Poslední aktualizace: