Detection and explanation of misinformation patterns in fact-checked claims using LLMs

Thesis title: Detection and explanation of misinformation patterns in fact-checked claims using LLMs
Author: Mládek, Richard
Thesis type: Bachelor thesis
Supervisor: Haniková, Kateřina
Opponents: Zamazal, Ondřej
Thesis language: English
Abstract:
This bachelor's thesis explores automated approaches to combating misinformation. It proposes a method for modeling argumentation in fact-checked claims using entity graphs and large language models (LLMs). The source dataset consists of 50 fact-check reports from the PolitiFact website. The argumentation in each report was analysed during an annotation campaign conducted by a team from VŠE. Annotators classified misleading claims based on predefined misinformation patterns in a Catalogue of Misinformation Patterns and created brief summaries of the argumentation in each fact-check report. The automated misinformation pattern detection approach proposed in this thesis achieved an exact agreement with annotators in 46% of reports, with an additional 36% of cases where the model proposed partially matching misinformation patterns. Evaluation of a wide selection of LLMs demonstrated that the Gemini 2.5 Pro model, created by Google, performed best in argumentation modeling. The experiments revealed that some examined claims are more challenging to model automatically than others. Based on this observation, a set of parameters that determine the complexity of a fact-check report is proposed. This metric has the potential to serve as an indicator of how confident we can be in an LLM's automated decision. To improve the interpretability of argumentation in fact-check reports, a method for automatically sketching entity graphs using LLMs is presented. Preliminary experiments indicate that this approach shows promise, with automatically generated graphs often approaching the quality of those created manually by human annotators. This thesis demonstrates that it is possible to model argumentation within fact-check reports fully automatically. The proposed approach has the potential to be used for evaluating the quality of fact-check reports, which could enable fully automated refutation of examined problematic claims in the future. Additionally, it improves the interpretability of argumentation in fact-checked claims.
Keywords: fact-checking; entity graphs; large language models; argumentation; misinformation; interpretability
Thesis title: Detekce a interpretabilita argumentačních vzorců ve fact-checkingových reportech pomocí LLMs
Author: Mládek, Richard
Thesis type: Bakalářská práce
Supervisor: Haniková, Kateřina
Opponents: Zamazal, Ondřej
Thesis language: English
Abstract:
Tata bakalářská práce se zabývá automatickými metody boje proti dezinformacím a navrhuje způsob, jak pomocí velkých jazykových modelů (LLMs) automaticky detekovat a modelovat argumentační vzory v zavádějících nebo nepravdivých výrocích, které jsou předmětem fact-checkových reportů. Jako zdrojový dataset je použit soubor 50 fact-checkových reportů z webu PolitiFact. Tento dataset byl vytvořen v rámci anotační kampaně týmem anotátorů z VŠE. Anotátoři analyzovali argumentaci v každém reportu, klasifikovali hlavní dezinformační vzory na základě předem připraveného katalogu dezinformačních vzorů a vytvořili krátké vysvětlení argumentace ve fact-checkovém reportu. Výsledky automatické detekce dezinformačních vzorů ukazují, že modelování argumentace nejlépe zvládá model Gemini 2.5 Pro od společnosti Google, který dosáhl přesné shody s anotátory ve 46 % případech a v dalších 36 % bylo dosaženo částečné shody. Experimenty v práci dokazují, že některá zkoumaná tvrzení jsou náročnější automaticky modelovat než jiná. Na základě tohoto poznatku je navrhnut soubor parametrů, na kterých závisí komplexita fact-checkového reportu. Tato metrika má potenciál být ukazatelem toho, nakolik si můžeme být jisti rozhodnutím velkého jazykového modelu při modelování argumentačních vzorů. V rámci zlepšení vysvětlování argumentace fact-checkových reportů je v práci nastíněn postup, jak automaticky načrtnout entitní graf pomocí LLMs. Předběžné experimenty ukazují, že grafy které zachycují jádro argumentace lze automaticky generovat. Tato práce dokazuje, že je možné modelovat argumentaci v rámci fact-checkových reportů zcela automaticky. Navržený postup má potenciál být využit pro vysvětlování dezinformací a pro evaluaci kvality fact-checkových reportů.
Keywords: entitní grafy; fact-checking; velké jazykové modely; dezinformace; argumentace; interpretabilita

Information about study

Study programme: Data Analytics
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 20. 2. 2025
Date of submission: 26. 6. 2025
Date of defense: 21. 8. 2025
Identifier in the InSIS system: https://insis.vse.cz/zp/91512/podrobnosti

Files for download

    Last update: