Využití umělé inteligence pro detekci zavádějícího obsahu na YouTube
Autor(ka) práce:
Hellmichová, Michaela
Typ práce:
Diplomová práce
Vedoucí práce:
Chudán, David
Oponenti práce:
Sigmund, Tomáš
Jazyk práce:
Česky
Abstrakt:
Tato diplomová práce se zabývá problematikou automatické detekce zavádějících videí na platformě YouTube v českém jazyce. Clickbait představuje specifickou formu manipulativního obsahu, jejímž cílem je upoutat pozornost uživatele a zvýšit pravděpodobnost interakce prostřednictvím zavádějících, senzacechtivých nebo emocionálně zabarvených sdělení. Většina existujících přístupů k jeho detekci vychází především z analýzy titulku nebo doprovodných metadat, zatímco menší pozornost je věnována využití samotného obsahu videa. Cílem práce je navrhnout, implementovat a vyhodnotit metodu klasifikace clickbaitu založenou výhradně na textových a sémantických příznacích odvozených z titulku a transkriptu videa. Součástí řešení je vytvoření a anotace vlastního datasetu českých YouTube videí, návrh několika sad vstupních atributů a porovnání různých přístupů k reprezentaci textu a klasifikaci. Hodnoceny jsou jak tradiční textové reprezentace založené na TF-IDF, tak sémantické reprezentace využívající sentence embeddingy, doplněné o příznaky sentimentu a metriky podobnosti mezi titulkem a transkriptem. Výsledky ukazují, že nejvyšší klasifikační výkonnosti dosahuje model využívající kombinaci sémantických reprezentací titulku a transkriptu spolu s příznaky zachycujícími jejich vzájemný vztah. Přínos informací odvozených z transkriptu se projevil zejména ve schopnosti lépe identifikovat clickbaitový obsah, ačkoli dosažené zlepšení oproti jednodušším přístupům zůstává relativně omezené. Současně bylo potvrzeno, že významnou výzvu představuje klasifikace přechodových případů mezi clickbaitovým a neclickbaitovým obsahem, jejichž vymezení je do značné míry subjektivní. Přínosem práce je vytvoření vlastního datasetu českých YouTube videí, experimentální ověření přínosu informací získaných z transkriptů videí a poskytnutí poznatků o možnostech automatické detekce clickbaitu v českém jazykovém prostředí.
Klíčová slova:
clickbait; YouTube; zpracování přirozeného jazyka; klasifikace textu; sémantická podobnost textů
Název práce:
Using Artificial Intelligence to Detect Misleading Content on YouTube
Autor(ka) práce:
Hellmichová, Michaela
Typ práce:
Diploma thesis
Vedoucí práce:
Chudán, David
Oponenti práce:
Sigmund, Tomáš
Jazyk práce:
Česky
Abstrakt:
This thesis addresses the problem of automatic clickbait detection in YouTube videos in the Czech language environment. Clickbait represents a specific form of manipulative content designed to attract users’ attention and increase engagement through misleading, sensationalized, or emotionally charged messages. While most existing approaches rely primarily on the analysis of video titles or accompanying metadata, considerably less attention has been paid to leveraging the actual video content itself. The aim of this thesis is to design, implement, and evaluate a clickbait classification method based exclusively on textual and semantic features derived from video titles and transcripts. The proposed approach includes the creation and annotation of a custom dataset of Czech YouTube videos, the design of multiple feature sets, and the comparison of different text representation and classification approaches. Both traditional TF-IDF-based text representations and semantic representations based on sentence embeddings are evaluated, together with sentiment-related features and similarity measures capturing the relationship between video titles and transcripts. The results indicate that the highest classification performance is achieved by a model combining semantic representations of both titles and transcripts with features describing their mutual relationship. Information derived from video transcripts proved particularly beneficial for improving the identification of clickbait content, although the performance gains over simpler approaches remained relatively modest. At the same time, the findings confirm that the classification of borderline cases between clickbait and non-clickbait content remains a significant challenge, largely due to the subjective nature of their definition. The main contributions of this thesis include the creation of a custom dataset of Czech YouTube videos, an empirical evaluation of the benefits of transcript-derived features, and insights into the potential of automatic clickbait detection in the Czech language environment.
Klíčová slova:
semantic text similarity; clickbait; natural language processing; text classification; YouTube