Experiment in applying graph neural network technology for checkable claim extraction from text

Thesis title: Experiment aplikovania grafových neurónových sietí na extrakciu overiteľných tvrdení z textu
Author: Cmarko, Patrik
Thesis type: Bachelor thesis
Supervisor: Svátek, Vojtěch
Opponents: Zimmermann, Pavel
Thesis language: Slovensky
Abstract:
Objem obsahu zdieľaného na sociálnych sieťach spôsobil, že manuálne overovanie faktov je v rozsahu nereálne, pričom detekcia tvrdení - úloha identifikácie viet obsahujúcich overiteľné faktické výroky - predstavuje kritické úzke hrdlo v procese overovania faktov. Táto bakalárska práca prezentuje experimentálne skúmanie, či grafové neurónové siete pracujúce nad syntaktickými závislostnými štruktúrami dokážu riešiť toto úzke hrdlo v podmienkach obmedzeného množstva dát. Experiment je štruktúrovaný okolo dvojstupňového pipelineu: prvý stupeň klasifikuje, či veta obsahuje tvrdenie, a druhý stupeň extrahuje minimálny rozsah tvrdenia z označených viet ako rozhodnutie ponechať/odstrániť na úrovni tokenov. Tri architektúry - grafová konvolučná sieť (GCN), grafová attention sieť (GAT) a gated attention GNN (GA-GNN) - sú implementované pre oba stupne a trénované na kombinácii datasetov CheckThat! 2022, NLP4IF 2021, ClaimBuster a FactAppeal. Vety sú konvertované na grafy pomocou závislostných analýz knižnice spaCy, pričom príznaky vrcholov kombinujú GloVe embeddingy, slovnodruhové značky, typy pomenovaných entít a lingvistické príznaky, a príznaky hrán kódujú závislostné vzťahy. Experimentálne výsledky ukazujú, že na testovacej sade CheckThat! 2022 Task 1B dosahujú všetky tri architektúry presnosť v rozsahu 0.753-0.768, pričom GCN a GA-GNN mierne prekonávajú najlepšie riešenie pôvodnej súťaže napriek použitiu výrazne menšieho počtu parametrov. Tie isté modely sa prenášajú na testovaciu sadu NLP4IF 2021 bez opätovného ladenia, dosahujúc vážené F1 v rozsahu 0.765-0.792. Pri extrakcii tvrdení dosahuje GA-GNN priemerné ROUGE-L 0.95 a BERTScore F1 0.98 oproti zlatým anotáciám - porovnateľné s vlastnou medziverziovou zhodou datasetu - aj keď silná nerovnováha tried posúva modely smerom ku konzervatívnym ``bezpečným rozsahom'' namiesto skutočne minimálnej extrakcie, čo je správanie pozorované konzistentne naprieč všetkými troma architektúrami. Práca dodatočne analyzuje kompromis medzi mierou prehliadnutia a klasifikačnou výkonnosťou ako funkciu rozhodovacieho prahu, čím poskytuje základ pre interpretáciu výsledkov v kontexte praktického pokrytia pipelineu namiesto samotnej hlavnej presnosti.
Keywords: GNN; extrakcia tvrdení; detekcia tvrdení; NLP; overovanie faktov
Thesis title: Experiment aplikování grafových neuronových sítí pro extrakci ověřitelných tvrzení z textu
Author: Cmarko, Patrik
Thesis type: Bakalářská práce
Supervisor: Svátek, Vojtěch
Opponents: Zimmermann, Pavel
Thesis language: Slovensky
Abstract:
Objem obsahu sdíleného na sociálních sítích způsobil, že manuální ověřování faktů je v měřítku neproveditelné, přičemž detekce tvrzení - úloha identifikace vět obsahujících ověřitelná faktická prohlášení - představuje kritické úzké hrdlo v procesu ověřování faktů. Tato bakalářská práce prezentuje experimentální zkoumání, zda grafové neuronové sítě pracující nad syntaktickými závislostními strukturami dokáží řešit toto úzké hrdlo v podmínkách omezeného množství dat. Experiment je strukturován kolem dvoustupňového pipelinu: první stupeň klasifikuje, zda věta obsahuje tvrzení, a druhý stupeň extrahuje minimální rozsah tvrzení z označených vět jako rozhodnutí ponechat/odstranit na úrovni tokenů. Tři architektury - grafová konvoluční síť (GCN), grafová attention síť (GAT) a gated attention GNN(GA-GNN) - jsou implementovány pro oba stupně a trénovány na kombinaci datasetů CheckThat! 2022, NLP4IF 2021, ClaimBuster a FactAppeal. Věty jsou převedeny na grafy pomocí závislostních analýz knihovny spaCy, přičemž rysy vrcholů kombinují GloVe embeddingy, slovnědruhové značky, typy pojmenovaných entit a lingvistické příznaky, a rysy hran kódují závislostní vztahy. Experimentální výsledky ukazují, že na testovací sadě CheckThat! 2022 Task 1B dosahují všechny tři architektury přesnosti v rozsahu 0.753-0.768, přičemž GCN a GA-GNN mírně překonávají nejlepší řešení původní soutěže navzdory použití výrazně menšího počtu parametrů. Tytéž modely se přenášejí na testovací sadu NLP4IF 2021 bez opětovného ladění, dosahujíc vážené F1 v rozsahu 0.765--0.792. Při extrakci tvrzení dosahuje GA-GNN průměrné ROUGE-L 0.95 a BERTScore F1 0.98 oproti zlatým anotacím - srovnatelné s vlastní meziverzní shodou datasetu - ačkoli silná nevyváženost tříd posouvá modely směrem ke konzervativním ``bezpečným rozsahům'' místo skutečně minimální extrakce, což je chování pozorované konzistentně napříč všemi třemi architekturami. Práce dodatečně analyzuje kompromis mezi mírou přehlédnutí a klasifikační výkonností jako funkci rozhodovacího prahu, čímž poskytuje základ pro interpretaci výsledků v kontextu praktického pokrytí pipelinu namísto samotné hlavní přesnosti.
Keywords: GNN; extrakce tvrzení; detekce tvrzení; detekce tvrzení; ověřovaní faktů
Thesis title: Experiment in applying graph neural network technology for checkable claim extraction from text
Author: Cmarko, Patrik
Thesis type: Bachelor thesis
Supervisor: Svátek, Vojtěch
Opponents: Zimmermann, Pavel
Thesis language: Slovensky
Abstract:
The volume of content shared on social media has made manual fact-checking infeasible at scale, with claim detection - the task of identifying which sentences contain verifiable factual assertions - forming a critical bottleneck in the fact-checking pipeline. This thesis presents an experimental investigation into whether graph neural networks operating on syntactic dependency structures can address this bottleneck under data-scarce conditions. The experiment is structured around a two-stage pipeline: the first stage classifies whether a sentence contains a claim, and the second stage extracts the minimal claim span from flagged sentences as a token-level keep/drop decision. Three architectures - a Graph Convolutional Network (GCN), a Graph Attention Network (GAT), and a Gated Attention GNN (GA-GNN) - are implemented for both stages and trained on a combination of the CheckThat! 2022, NLP4IF 2021, ClaimBuster, and FactAppeal datasets. Sentences are converted into graphs using spaCy dependency parses, with node features combining GloVe embeddings, part-of-speech tags, named entity types, and linguistic flags, and with edge features encoding dependency relations. The experimental findings show that, on the CheckThat! 2022 Task 1B test set, all three architectures reach accuracy in the range 0.764–0.782, with GCN matching the best shared-task submission despite using substantially fewer parameters. For claim extraction, token-level macro F1 reaches 0.72 with ROUGE-L of 0.94 against gold annotations, although strong class imbalance shifts the models toward conservative "safe span" rather than truly minimal extraction - a behaviour observed consistently across all three architectures. The thesis additionally analyses the trade-off between miss rate and classification performance as a function of the decision threshold, providing a basis for interpreting the results in terms of practical pipeline coverage rather than headline accuracy alone.
Keywords: GNN; claim detection; claim extraction; NLP; fact-checking

Information about study

Study programme: Data Analytics
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 5. 2. 2026
Date of submission: 11. 5. 2026
Date of defense: 17. 6. 2026
Identifier in the InSIS system: https://insis.vse.cz/zp/95468/podrobnosti

Files for download

    Last update: