Detekce a interpretabilita argumentačních vzorců ve fact-checkingových reportech pomocí LLMs

Název práce: Detection and explanation of misinformation patterns in fact-checked claims using LLMs
Autor(ka) práce: Mládek, Richard
Typ práce: Bachelor thesis
Vedoucí práce: Haniková, Kateřina
Oponenti práce: Zamazal, Ondřej
Jazyk práce: English
Abstrakt:
This bachelor's thesis explores automated approaches to combating misinformation. It proposes a method for modeling argumentation in fact-checked claims using entity graphs and large language models (LLMs). The source dataset consists of 50 fact-check reports from the PolitiFact website. The argumentation in each report was analysed during an annotation campaign conducted by a team from VŠE. Annotators classified misleading claims based on predefined misinformation patterns in a Catalogue of Misinformation Patterns and created brief summaries of the argumentation in each fact-check report. The automated misinformation pattern detection approach proposed in this thesis achieved an exact agreement with annotators in 46% of reports, with an additional 36% of cases where the model proposed partially matching misinformation patterns. Evaluation of a wide selection of LLMs demonstrated that the Gemini 2.5 Pro model, created by Google, performed best in argumentation modeling. The experiments revealed that some examined claims are more challenging to model automatically than others. Based on this observation, a set of parameters that determine the complexity of a fact-check report is proposed. This metric has the potential to serve as an indicator of how confident we can be in an LLM's automated decision. To improve the interpretability of argumentation in fact-check reports, a method for automatically sketching entity graphs using LLMs is presented. Preliminary experiments indicate that this approach shows promise, with automatically generated graphs often approaching the quality of those created manually by human annotators. This thesis demonstrates that it is possible to model argumentation within fact-check reports fully automatically. The proposed approach has the potential to be used for evaluating the quality of fact-check reports, which could enable fully automated refutation of examined problematic claims in the future. Additionally, it improves the interpretability of argumentation in fact-checked claims.
Klíčová slova: fact-checking; entity graphs; large language models; argumentation; misinformation; interpretability
Název práce: Detekce a interpretabilita argumentačních vzorců ve fact-checkingových reportech pomocí LLMs
Autor(ka) práce: Mládek, Richard
Typ práce: Bakalářská práce
Vedoucí práce: Haniková, Kateřina
Oponenti práce: Zamazal, Ondřej
Jazyk práce: English
Abstrakt:
Tata bakalářská práce se zabývá automatickými metody boje proti dezinformacím a navrhuje způsob, jak pomocí velkých jazykových modelů (LLMs) automaticky detekovat a modelovat argumentační vzory v zavádějících nebo nepravdivých výrocích, které jsou předmětem fact-checkových reportů. Jako zdrojový dataset je použit soubor 50 fact-checkových reportů z webu PolitiFact. Tento dataset byl vytvořen v rámci anotační kampaně týmem anotátorů z VŠE. Anotátoři analyzovali argumentaci v každém reportu, klasifikovali hlavní dezinformační vzory na základě předem připraveného katalogu dezinformačních vzorů a vytvořili krátké vysvětlení argumentace ve fact-checkovém reportu. Výsledky automatické detekce dezinformačních vzorů ukazují, že modelování argumentace nejlépe zvládá model Gemini 2.5 Pro od společnosti Google, který dosáhl přesné shody s anotátory ve 46 % případech a v dalších 36 % bylo dosaženo částečné shody. Experimenty v práci dokazují, že některá zkoumaná tvrzení jsou náročnější automaticky modelovat než jiná. Na základě tohoto poznatku je navrhnut soubor parametrů, na kterých závisí komplexita fact-checkového reportu. Tato metrika má potenciál být ukazatelem toho, nakolik si můžeme být jisti rozhodnutím velkého jazykového modelu při modelování argumentačních vzorů. V rámci zlepšení vysvětlování argumentace fact-checkových reportů je v práci nastíněn postup, jak automaticky načrtnout entitní graf pomocí LLMs. Předběžné experimenty ukazují, že grafy které zachycují jádro argumentace lze automaticky generovat. Tato práce dokazuje, že je možné modelovat argumentaci v rámci fact-checkových reportů zcela automaticky. Navržený postup má potenciál být využit pro vysvětlování dezinformací a pro evaluaci kvality fact-checkových reportů.
Klíčová slova: entitní grafy; fact-checking; velké jazykové modely; dezinformace; argumentace; interpretabilita

Informace o studiu

Studijní program / obor: Data Analytics
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 20. 2. 2025
Datum podání práce: 26. 6. 2025
Datum obhajoby: 21. 8. 2025
Identifikátor v systému InSIS: https://insis.vse.cz/zp/91512/podrobnosti

Soubory ke stažení

    Poslední aktualizace: