Automatic sarcasm detection, approaches, possibilities, techniques
Thesis title: | Automatická detekce sarkasmu, přístupy, možnosti, techniky |
---|---|
Author: | Čekan, Josef |
Thesis type: | Bakalářská práce |
Supervisor: | Jelínek, Ivan |
Opponents: | Strossa, Petr |
Thesis language: | Česky |
Abstract: | Práce se zabývá automatickou detekcí sarkasmu v rámci sentiment analýzy textu. Pro detekcisarkasmu je nejprve důležité definovat samotný sarkasmus a jeho znaky a charakteristiky,což je učiněno v první části této práce. Následující část je věnována možnostemzisku vzorků dat a jejich formám. Tyto vzorky dat jsou klíčové při trénování a testovánímodelů určených k detekci sarkasmu. Dalším cílem práce bylo představení hlavních studiívěnujících se detekci sarkasmu, a to jak z hlediska použitých metod a přístupů, takz hlediska trendů, které v mladém odvětví automatické detekce sarkasmu panovaly a panují.V praktické části je vytvořen model, určený k detekci sarkasmu nad českými daty. Nejprvetedy byl sestaven vzorek ohodnocených českých dat. Následně byly pomocí trénovacísady dat a nástroje Apache DoccatTrainer vytvořeny modely pro detekci sarkasmus různými parametry. Poté byly tyto modely otestovány testovací sadou dat a vyhodnocenyvýsledky. Nejúspěšnější model dosáhl úspěšnosti 75 %, avšak přesnost určení sarkasmučinila pouze 37,5 %. |
Keywords: | Sarkasmus; Dataset; Apache Doccat; Sentiment analýza |
Thesis title: | Automatic sarcasm detection, approaches, possibilities, techniques |
---|---|
Author: | Čekan, Josef |
Thesis type: | Bachelor thesis |
Supervisor: | Jelínek, Ivan |
Opponents: | Strossa, Petr |
Thesis language: | Česky |
Abstract: | This thesis deals with the automatic detection of sarcasm within the sentiment analysis. Forthe detection of sarcasm, first it is important to define the sarcasm itself and its featuresand characteristics, which is done in the first part of this work. The following section isdevoted to the possibilities of obtaining data samples and their forms. These data samplesare key for training and testing models designed for sarcasm detection. Another aim of thework was to present the main studies on the automatic detection of sarcasm, both in termsof methods and approaches used, and in terms of the trends in this young sector of automaticdetection of sarcasm. A model is created in the practical part, designed to detect sarcasmover Czech data. First of all, a collection of evaluated Czech data was created.Subsequently, models for the detection of sarcasm with different parameters were createdusing the training set and Apache DoccatTrainer. These models were tested by a test datasetand the results were evaluated. The most successful model achieved a 75 % successrate, but the precision of sarcasm determination was only 37.5 %. |
Keywords: | Sarcasm; Apache Doccat; Sentiment analysis; Dataset |
Information about study
Study programme: | Aplikovaná informatika/Aplikovaná informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 1. 4. 2017 |
---|---|
Date of submission: | 27. 4. 2018 |
Date of defense: | 12. 6. 2018 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/61897/podrobnosti |