Toxicity Monitoring as an Instrument for Online Community Health Assurance

Název práce: Toxicity Monitoring as an Instrument for Online Community Health Assurance
Autor(ka) práce: Navrátil, Václav
Typ práce: Závěrečná práce - Institut celoživotního vzdělávání
Vedoucí práce: Vencovský, Filip
Oponenti práce: Bruckner, Tomáš
Jazyk práce: English
Abstrakt:
This work builds on the findings of existing research in the field of Natural Language Processing (NLP) and utilizes machine learning models to improve the community management workflow of Open-Source projects. Community management is an important task and its success has a significant impact on the proliferation and reputation of any Open-Source project. The most time consuming part of community management is the detection of toxic messages. This is why this work aims at the improvement of the community management workflow by employing automatic post-processing and alerting, freeing the hands of moderators for tasks needing more responsibility or variety. Specifically, it focuses on the development of an NLP toxicity detection system based on a pre-trained toxicity classifier and consisting of containerized services for convenient improvements, enhancements, extensibility, and scalability is developed and implemented into the current moderation process and used for early detection of toxic messages. Furthermore, it calculates long-term values from the ratio of toxic and non-toxic messages, long-term values are being and used as a benchmark for alerting, incident identification, and mitigation as well as an indicator of community health, open-source product quality, and reputation. This work is validated by a series of answers to questions regarding this project by people concerned with community health on various management levels within an organization. The results show that this system can effectively detect toxic messages and improve the community management workflow. Furthermore, it can provide a better understanding of community quality and Open-Source project reputation by providing an indicator of the overall condition of an Open-Source project.
Klíčová slova: toxicity detection; natural language processing; machine learning; community management; community health; workflow improvement; reputation protection
Název práce: Toxicity Monitoring as an Instrument for Online Community Health Assurance
Autor(ka) práce: Navrátil, Václav
Typ práce: Závěrečná práce - Institut celoživotního vzdělávání
Vedoucí práce: Vencovský, Filip
Oponenti práce: Bruckner, Tomáš
Jazyk práce: English
Abstrakt:
Tato práce vychází z výsledků stávajícího výzkumu v oblasti zpracování přirozeného jazyka (NLP) a využívá modely strojového učení ke zlepšení pracovního postupu správy komunit v open-source projektech. Správa komunity je důležitým úkolem a její úspěšnost má významný dopad na šíření a pověst každého takového projektu. Časově nejnáročnější částí správy komunity je detekce toxických zpráv, proto se tato práce zaměřuje na zlepšení pracovních postupů správců komunity využitím automatického zpracování obsahu a výstrah, čímž se moderátorům uvolní ruce pro úkoly, které vyžadují větší zodpovědnost nebo rozmanitost. Konkrétně se zaměřuje na vývoj NLP systému detekce toxicity, který je založen na předem natrénovaném klasifikátoru toxicity a skládá se z kontejnerových služeb pro pohodlné vylepšování, zdokonalování, rozšiřitelnost a škálovatelnost. Systém je vyvinut a implementován do současného procesu moderování a slouží k včasné detekci toxických zpráv. Dále vypočítává dlouhodobé hodnoty z poměru toxických a netoxických zpráv, dlouhodobé hodnoty jsou použity jako měřítko pro upozorňování, identifikaci incidentů a zmírňování jejich následků a také jako ukazatel zdraví komunity, kvality open-source produktů a reputace. Tato práce je ověřena řadou odpovědí na otázky týkající se tohoto projektu od lidí, kteří se zabývají zdravím komunity na různých úrovních řízení v rámci organizace. Výsledky ukazují, že tento systém dokáže účinně odhalovat toxické zprávy a zlepšovat pracovní postupy řízení komunity. Kromě toho může poskytnout lepší pochopení kvality a zdraví komunity a reputace open-source projektu tím, že poskytuje ukazatel celkového stavu.
Klíčová slova: strojové učení; detekce toxicity; zpracování přirozeného jazyka; správa komunity; zdraví komunity; zlepšení pracovních postupů; ochrana reputace

Informace o studiu

Studijní program / obor: Data & Analytics for Business Management
Typ studijního programu: Celoživotní vzdělávání studijní program
Přidělovaná hodnost: MBA
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 30. 6. 2022
Datum podání práce: 16. 12. 2022
Datum obhajoby: 23. 2. 2023
Identifikátor v systému InSIS: https://insis.vse.cz/zp/83177/podrobnosti

Soubory ke stažení

    Poslední aktualizace: