Automatic sarcasm detection, approaches, possibilities, techniques

Thesis title: Automatická detekce sarkasmu, přístupy, možnosti, techniky
Author: Čekan, Josef
Thesis type: Bakalářská práce
Supervisor: Jelínek, Ivan
Opponents: Strossa, Petr
Thesis language: Česky
Abstract:
Práce se zabývá automatickou detekcí sarkasmu v rámci sentiment analýzy textu. Pro detekcisarkasmu je nejprve důležité definovat samotný sarkasmus a jeho znaky a charakteristiky,což je učiněno v první části této práce. Následující část je věnována možnostemzisku vzorků dat a jejich formám. Tyto vzorky dat jsou klíčové při trénování a testovánímodelů určených k detekci sarkasmu. Dalším cílem práce bylo představení hlavních studiívěnujících se detekci sarkasmu, a to jak z hlediska použitých metod a přístupů, takz hlediska trendů, které v mladém odvětví automatické detekce sarkasmu panovaly a panují.V praktické části je vytvořen model, určený k detekci sarkasmu nad českými daty. Nejprvetedy byl sestaven vzorek ohodnocených českých dat. Následně byly pomocí trénovacísady dat a nástroje Apache DoccatTrainer vytvořeny modely pro detekci sarkasmus různými parametry. Poté byly tyto modely otestovány testovací sadou dat a vyhodnocenyvýsledky. Nejúspěšnější model dosáhl úspěšnosti 75 %, avšak přesnost určení sarkasmučinila pouze 37,5 %.
Keywords: Sarkasmus; Dataset; Apache Doccat; Sentiment analýza
Thesis title: Automatic sarcasm detection, approaches, possibilities, techniques
Author: Čekan, Josef
Thesis type: Bachelor thesis
Supervisor: Jelínek, Ivan
Opponents: Strossa, Petr
Thesis language: Česky
Abstract:
This thesis deals with the automatic detection of sarcasm within the sentiment analysis. Forthe detection of sarcasm, first it is important to define the sarcasm itself and its featuresand characteristics, which is done in the first part of this work. The following section isdevoted to the possibilities of obtaining data samples and their forms. These data samplesare key for training and testing models designed for sarcasm detection. Another aim of thework was to present the main studies on the automatic detection of sarcasm, both in termsof methods and approaches used, and in terms of the trends in this young sector of automaticdetection of sarcasm. A model is created in the practical part, designed to detect sarcasmover Czech data. First of all, a collection of evaluated Czech data was created.Subsequently, models for the detection of sarcasm with different parameters were createdusing the training set and Apache DoccatTrainer. These models were tested by a test datasetand the results were evaluated. The most successful model achieved a 75 % successrate, but the precision of sarcasm determination was only 37.5 %.
Keywords: Sarcasm; Apache Doccat; Sentiment analysis; Dataset

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 1. 4. 2017
Date of submission: 27. 4. 2018
Date of defense: 12. 6. 2018
Identifier in the InSIS system: https://insis.vse.cz/zp/61897/podrobnosti

Files for download

    Last update: