Detekce a interpretabilita argumentačních vzorců ve fact-checkingových reportech pomocí LLMs
| Název práce: | Detection and explanation of misinformation patterns in fact-checked claims using LLMs |
|---|---|
| Autor(ka) práce: | Mládek, Richard |
| Typ práce: | Bachelor thesis |
| Vedoucí práce: | Haniková, Kateřina |
| Oponenti práce: | Zamazal, Ondřej |
| Jazyk práce: | English |
| Abstrakt: | This bachelor's thesis explores automated approaches to combating misinformation. It proposes a method for modeling argumentation in fact-checked claims using entity graphs and large language models (LLMs). The source dataset consists of 50 fact-check reports from the PolitiFact website. The argumentation in each report was analysed during an annotation campaign conducted by a team from VŠE. Annotators classified misleading claims based on predefined misinformation patterns in a Catalogue of Misinformation Patterns and created brief summaries of the argumentation in each fact-check report. The automated misinformation pattern detection approach proposed in this thesis achieved an exact agreement with annotators in 46% of reports, with an additional 36% of cases where the model proposed partially matching misinformation patterns. Evaluation of a wide selection of LLMs demonstrated that the Gemini 2.5 Pro model, created by Google, performed best in argumentation modeling. The experiments revealed that some examined claims are more challenging to model automatically than others. Based on this observation, a set of parameters that determine the complexity of a fact-check report is proposed. This metric has the potential to serve as an indicator of how confident we can be in an LLM's automated decision. To improve the interpretability of argumentation in fact-check reports, a method for automatically sketching entity graphs using LLMs is presented. Preliminary experiments indicate that this approach shows promise, with automatically generated graphs often approaching the quality of those created manually by human annotators. This thesis demonstrates that it is possible to model argumentation within fact-check reports fully automatically. The proposed approach has the potential to be used for evaluating the quality of fact-check reports, which could enable fully automated refutation of examined problematic claims in the future. Additionally, it improves the interpretability of argumentation in fact-checked claims. |
| Klíčová slova: | fact-checking; entity graphs; large language models; argumentation; misinformation; interpretability |
| Název práce: | Detekce a interpretabilita argumentačních vzorců ve fact-checkingových reportech pomocí LLMs |
|---|---|
| Autor(ka) práce: | Mládek, Richard |
| Typ práce: | Bakalářská práce |
| Vedoucí práce: | Haniková, Kateřina |
| Oponenti práce: | Zamazal, Ondřej |
| Jazyk práce: | English |
| Abstrakt: | Tata bakalářská práce se zabývá automatickými metody boje proti dezinformacím a navrhuje způsob, jak pomocí velkých jazykových modelů (LLMs) automaticky detekovat a modelovat argumentační vzory v zavádějících nebo nepravdivých výrocích, které jsou předmětem fact-checkových reportů. Jako zdrojový dataset je použit soubor 50 fact-checkových reportů z webu PolitiFact. Tento dataset byl vytvořen v rámci anotační kampaně týmem anotátorů z VŠE. Anotátoři analyzovali argumentaci v každém reportu, klasifikovali hlavní dezinformační vzory na základě předem připraveného katalogu dezinformačních vzorů a vytvořili krátké vysvětlení argumentace ve fact-checkovém reportu. Výsledky automatické detekce dezinformačních vzorů ukazují, že modelování argumentace nejlépe zvládá model Gemini 2.5 Pro od společnosti Google, který dosáhl přesné shody s anotátory ve 46 % případech a v dalších 36 % bylo dosaženo částečné shody. Experimenty v práci dokazují, že některá zkoumaná tvrzení jsou náročnější automaticky modelovat než jiná. Na základě tohoto poznatku je navrhnut soubor parametrů, na kterých závisí komplexita fact-checkového reportu. Tato metrika má potenciál být ukazatelem toho, nakolik si můžeme být jisti rozhodnutím velkého jazykového modelu při modelování argumentačních vzorů. V rámci zlepšení vysvětlování argumentace fact-checkových reportů je v práci nastíněn postup, jak automaticky načrtnout entitní graf pomocí LLMs. Předběžné experimenty ukazují, že grafy které zachycují jádro argumentace lze automaticky generovat. Tato práce dokazuje, že je možné modelovat argumentaci v rámci fact-checkových reportů zcela automaticky. Navržený postup má potenciál být využit pro vysvětlování dezinformací a pro evaluaci kvality fact-checkových reportů. |
| Klíčová slova: | entitní grafy; fact-checking; velké jazykové modely; dezinformace; argumentace; interpretabilita |
Informace o studiu
| Studijní program / obor: | Data Analytics |
|---|---|
| Typ studijního programu: | Bakalářský studijní program |
| Přidělovaná hodnost: | Bc. |
| Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
| Fakulta: | Fakulta informatiky a statistiky |
| Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
| Datum zadání práce: | 20. 2. 2025 |
|---|---|
| Datum podání práce: | 26. 6. 2025 |
| Datum obhajoby: | 21. 8. 2025 |
| Identifikátor v systému InSIS: | https://insis.vse.cz/zp/91512/podrobnosti |