Toxicity Monitoring as an Instrument for Online Community Health Assurance

Thesis title: Toxicity Monitoring as an Instrument for Online Community Health Assurance
Author: Navrátil, Václav
Thesis type: Závěrečná práce - Institut celoživotního vzdělávání
Supervisor: Vencovský, Filip
Opponents: Bruckner, Tomáš
Thesis language: English
Abstract:
This work builds on the findings of existing research in the field of Natural Language Processing (NLP) and utilizes machine learning models to improve the community management workflow of Open-Source projects. Community management is an important task and its success has a significant impact on the proliferation and reputation of any Open-Source project. The most time consuming part of community management is the detection of toxic messages. This is why this work aims at the improvement of the community management workflow by employing automatic post-processing and alerting, freeing the hands of moderators for tasks needing more responsibility or variety. Specifically, it focuses on the development of an NLP toxicity detection system based on a pre-trained toxicity classifier and consisting of containerized services for convenient improvements, enhancements, extensibility, and scalability is developed and implemented into the current moderation process and used for early detection of toxic messages. Furthermore, it calculates long-term values from the ratio of toxic and non-toxic messages, long-term values are being and used as a benchmark for alerting, incident identification, and mitigation as well as an indicator of community health, open-source product quality, and reputation. This work is validated by a series of answers to questions regarding this project by people concerned with community health on various management levels within an organization. The results show that this system can effectively detect toxic messages and improve the community management workflow. Furthermore, it can provide a better understanding of community quality and Open-Source project reputation by providing an indicator of the overall condition of an Open-Source project.
Keywords: toxicity detection; natural language processing; machine learning; community management; community health; workflow improvement; reputation protection
Thesis title: Toxicity Monitoring as an Instrument for Online Community Health Assurance
Author: Navrátil, Václav
Thesis type: Závěrečná práce - Institut celoživotního vzdělávání
Supervisor: Vencovský, Filip
Opponents: Bruckner, Tomáš
Thesis language: English
Abstract:
Tato práce vychází z výsledků stávajícího výzkumu v oblasti zpracování přirozeného jazyka (NLP) a využívá modely strojového učení ke zlepšení pracovního postupu správy komunit v open-source projektech. Správa komunity je důležitým úkolem a její úspěšnost má významný dopad na šíření a pověst každého takového projektu. Časově nejnáročnější částí správy komunity je detekce toxických zpráv, proto se tato práce zaměřuje na zlepšení pracovních postupů správců komunity využitím automatického zpracování obsahu a výstrah, čímž se moderátorům uvolní ruce pro úkoly, které vyžadují větší zodpovědnost nebo rozmanitost. Konkrétně se zaměřuje na vývoj NLP systému detekce toxicity, který je založen na předem natrénovaném klasifikátoru toxicity a skládá se z kontejnerových služeb pro pohodlné vylepšování, zdokonalování, rozšiřitelnost a škálovatelnost. Systém je vyvinut a implementován do současného procesu moderování a slouží k včasné detekci toxických zpráv. Dále vypočítává dlouhodobé hodnoty z poměru toxických a netoxických zpráv, dlouhodobé hodnoty jsou použity jako měřítko pro upozorňování, identifikaci incidentů a zmírňování jejich následků a také jako ukazatel zdraví komunity, kvality open-source produktů a reputace. Tato práce je ověřena řadou odpovědí na otázky týkající se tohoto projektu od lidí, kteří se zabývají zdravím komunity na různých úrovních řízení v rámci organizace. Výsledky ukazují, že tento systém dokáže účinně odhalovat toxické zprávy a zlepšovat pracovní postupy řízení komunity. Kromě toho může poskytnout lepší pochopení kvality a zdraví komunity a reputace open-source projektu tím, že poskytuje ukazatel celkového stavu.
Keywords: strojové učení; detekce toxicity; zpracování přirozeného jazyka; správa komunity; zdraví komunity; zlepšení pracovních postupů; ochrana reputace

Information about study

Study programme: Data & Analytics for Business Management
Type of study programme: Celoživotní vzdělávání studijní program
Assigned degree: MBA
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 30. 6. 2022
Date of submission: 16. 12. 2022
Date of defense: 23. 2. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/83177/podrobnosti

Files for download

    Last update: