Spolehlivost klasifikace textových dat pomocí chatbotů: případová studie

Název práce: Identifikácia odľahlých konverzácii
Autor(ka) práce: Vajdečka, Peter
Typ práce: Bakalářská práce
Vedoucí práce: Černý, Michal
Oponenti práce: -
Jazyk práce: Slovensky
Abstrakt:
Bakalárska práca sa zameriava na spracovanie vstupných textových dát, ktoré sa neskôr použijú na vytvorenie umelej inteligencie. Kladieme si za cieľ najskôr transformovať textové konverzácie do numerickej podoby vo forme vektorov. Následne identifikujeme odľahlé konverzácie na dátach, ktoré boli už viac krát aktualizované kvôli chýbam pri manuálnom označovaní veľkého množstva dát človekom. Napriek viacerým aktualizáciám dát sme pomocou metód strojového učenia a štatistiky dokázali, že sa v dátach stále nachádzajú chyby triedenia konverzácií do tém. Použitý model aplikujeme prvýkrát na konverzáciách. Tento model je založený na lokálnej miere odľahlosti aplikovaním umelých neurónových sietí a testovaním logistickej regresie. Navrhnutím tohto modelu na konverzáciách identifikujeme nesprávne zaradené konverzácie, čo môže vylepšiť výkon akejkoľvek formy umelej inteligencie.
Klíčová slova: logistická regresia; neurónová sieť; konverzácie; lokálna miera odľahlosti
Název práce: Spolehlivost klasifikace textových dat pomocí chatbotů: případová studie
Autor(ka) práce: Vajdečka, Peter
Typ práce: Bakalářská práce
Vedoucí práce: Černý, Michal
Oponenti práce: -
Jazyk práce: Slovensky
Abstrakt:
Bakalářská práce se zaměřuje na zpracování vstupních textových dat, které budou později použity k vytvoření umělé inteligence. Nejprve si klademe za cíl transformovat textové konverzace do numerické podoby ve formě vektorů. Následně identifikujeme odlehlé konverzace na datech, která byla několikrát aktualizována kvůli chybám při ručním označování velkého množství dat lidmi. Navzdory několika aktualizacím dat jsme pomocí strojového učení a statistik prokázali, že při třídění konverzací do témat stále existují chyby. Tento model je založen na lokálním vnějším faktoru použitím umělých neuronových sítí a testováním logistické regrese. Navrhováním tohoto modelu v konverzacích identifikujeme nesprávně klasifikované konverzace, které mohou zlepšit výkon jakékoli formy umělé inteligence.
Klíčová slova: lokálni míra odlehlosti ; logistická regrese; konverzace; neuronová síť
Název práce: Identification of outlier conversations
Autor(ka) práce: Vajdečka, Peter
Typ práce: Bachelor thesis
Vedoucí práce: Černý, Michal
Oponenti práce: -
Jazyk práce: Slovensky
Abstrakt:
The bachelor thesis focuses on the processing of input text data, which will later be used to create artificial intelligence. Firstly, we aim to transform text conversations into numerical form in the form of vectors. Subsequently, we identify outlier conversations on data that has been updated several times due to errors in manually marking large amounts of data by humans. Despite several data updates, we have used machine learning methods and statistics to prove that there are still errors in sorting conversations into topics. This model is based on local outlier factor by applying artificial neural networks and testing logistic regression. By proposing this model on conversations, we identify misclassified conversations, which can improve the performance of any form of artificial intelligence.
Klíčová slova: conversations; logistic regression; local outlier factor; neural network

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Matematické metody v ekonomii
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra ekonometrie

Informace o odevzdání a obhajobě

Datum zadání práce: 14. 12. 2019
Datum podání práce: 11. 5. 2020
Datum obhajoby: 2020

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: