Identification of outlier conversations

Thesis title: Identifikácia odľahlých konverzácii
Author: Vajdečka, Peter
Thesis type: Bachelor thesis
Supervisor: Černý, Michal
Opponents: -
Thesis language: Slovensky
Abstract:
Bakalárska práca sa zameriava na spracovanie vstupných textových dát, ktoré sa neskôr použijú na vytvorenie umelej inteligencie. Kladieme si za cieľ najskôr transformovať textové konverzácie do numerickej podoby vo forme vektorov. Následne identifikujeme odľahlé konverzácie na dátach, ktoré boli už viac krát aktualizované kvôli chýbam pri manuálnom označovaní veľkého množstva dát človekom. Napriek viacerým aktualizáciám dát sme pomocou metód strojového učenia a štatistiky dokázali, že sa v dátach stále nachádzajú chyby triedenia konverzácií do tém. Použitý model aplikujeme prvýkrát na konverzáciách. Tento model je založený na lokálnej miere odľahlosti aplikovaním umelých neurónových sietí a testovaním logistickej regresie. Navrhnutím tohto modelu na konverzáciách identifikujeme nesprávne zaradené konverzácie, čo môže vylepšiť výkon akejkoľvek formy umelej inteligencie.
Keywords: logistická regresia; neurónová sieť; konverzácie; lokálna miera odľahlosti
Thesis title: Spolehlivost klasifikace textových dat pomocí chatbotů: případová studie
Author: Vajdečka, Peter
Thesis type: Bakalářská práce
Supervisor: Černý, Michal
Opponents: -
Thesis language: Slovensky
Abstract:
Bakalářská práce se zaměřuje na zpracování vstupních textových dat, které budou později použity k vytvoření umělé inteligence. Nejprve si klademe za cíl transformovat textové konverzace do numerické podoby ve formě vektorů. Následně identifikujeme odlehlé konverzace na datech, která byla několikrát aktualizována kvůli chybám při ručním označování velkého množství dat lidmi. Navzdory několika aktualizacím dat jsme pomocí strojového učení a statistik prokázali, že při třídění konverzací do témat stále existují chyby. Tento model je založen na lokálním vnějším faktoru použitím umělých neuronových sítí a testováním logistické regrese. Navrhováním tohoto modelu v konverzacích identifikujeme nesprávně klasifikované konverzace, které mohou zlepšit výkon jakékoli formy umělé inteligence.
Keywords: lokálni míra odlehlosti ; logistická regrese; konverzace; neuronová síť
Thesis title: Identification of outlier conversations
Author: Vajdečka, Peter
Thesis type: Bachelor thesis
Supervisor: Černý, Michal
Opponents: -
Thesis language: Slovensky
Abstract:
The bachelor thesis focuses on the processing of input text data, which will later be used to create artificial intelligence. Firstly, we aim to transform text conversations into numerical form in the form of vectors. Subsequently, we identify outlier conversations on data that has been updated several times due to errors in manually marking large amounts of data by humans. Despite several data updates, we have used machine learning methods and statistics to prove that there are still errors in sorting conversations into topics. This model is based on local outlier factor by applying artificial neural networks and testing logistic regression. By proposing this model on conversations, we identify misclassified conversations, which can improve the performance of any form of artificial intelligence.
Keywords: conversations; logistic regression; local outlier factor; neural network

Information about study

Study programme: Kvantitativní metody v ekonomice/Matematické metody v ekonomii
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Econometrics

Information on submission and defense

Date of assignment: 14. 12. 2019
Date of submission: 11. 5. 2020
Date of defense: 2020

Files for download

The files will be available after the defense of the thesis.

    Last update: