Abstraktní sumarizace zpráv o ověřování faktů pomocí předem natrénovaného transformeru na extraktivních souhrnech

Název práce: Abstractive summarization of fact check reports with pre-trained transformer tuning on extractive summaries
Autor(ka) práce: Vajdečka, Peter
Typ práce: Diploma thesis
Vedoucí práce: Svátek, Vojtěch
Oponenti práce: Vencovský, Filip
Jazyk práce: English
Abstrakt:
Fact checking is an activity aiming to remedy the global problem of disinformation spread. The result of this process, undertaken by numerous initiatives such as demagog.cz or politifact.com, are fact check reports written by human editors. Since the reports are frequently too long for a casual reader, and contain auxiliary parts not directly relevant for judging the claim veracity, automated creation of fact check report summaries is a topical task. The reader could then look at the shorter summary, containing the most salient points of the report, and then decide whether they dig deeper into some parts of the full report or not. In the field of natural language processing, neural network models with transformer architectures achieve state-of-the-art results on many downstream tasks, including text summarization. These models are trained on a massive textual knowledge base, which ensures that just a small quantity of data is required to fine-tune these models – in contrast to large amounts of training data needed when the learning process starts from scratch just for the particular application. We propose a novel procedure for text data reduction for the purpose of fine-tuning a natural language generation model, the Unified Text to Text Transformer (T5), in order to summarize a fact check report. First, the Local Outlier Factor approach is used to generate an extractive summary of the report, using sentence vectorization via the TF-IDF, DOC2VEC and BERT contextual representations. In addition, BERT is fine-tuned specifically for the given task and achieves the best results when compared to the other vector representations. Finally, the T5 Transformer is fine-tuned using these extractive summaries (reports containing fewer sentences than the original ones) to generate the final abstractive summaries. On English texts from politifact.com, the new method outperformed all state-of-the-art methods. As regards the Czech language, we were, to our knowledge, the first to apply automatic summarization to demagog.cz data. For comparison, the new procedure was also applied to generate short summaries for a known Czech news dataset (SumeCzech); although we only used 10 % of the initial training data for model fine-tuning, we overcame most of the state-of-the-art results.
Klíčová slova: natural language generation; local outlier factor; natural language processing; neural network; transformer architecture; BERT; TF-IDF; DOC2VEC; fact-checking; summarization
Název práce: Abstraktní sumarizace zpráv o ověřování faktů pomocí předem natrénovaného transformeru na extraktivních souhrnech
Autor(ka) práce: Vajdečka, Peter
Typ práce: Diplomová práce
Vedoucí práce: Svátek, Vojtěch
Oponenti práce: Vencovský, Filip
Jazyk práce: English
Abstrakt:
Kontrola faktů je činnost zaměřená na řešení celosvětového problému šíření dezinformací. Výsledkem tohoto procesu, který provádí řada iniciativ, jako je demagog.cz nebo politifact.com, jsou zprávy o ověřování faktů psané lidskými redaktory. Vzhledem k tomu, že zprávy jsou často pro běžného čtenáře příliš dlouhé a obsahují vedlejší části, které nejsou pro posouzení pravdivosti tvrzení přímo relevantní, je skutečným úkolem automatizovaná tvorba souhrnů zpráv pro kontrolu faktů. Vzhledem k tomu by se čtenář mohl podívat na kratší shrnutí, které obsahuje nejvýznamnější body zprávy, a rozhodnout se, zda se do některých částí celé zprávy ponoří hlouběji, či nikoli. V oblasti zpracování přirozeného jazyka dosahují modely neuronových sítí s architekturou transformátoru nejlepších výsledků v mnoha úlohách, včetně shrnutí textu. Tyto modely jsou trénovány na obrovské základně textových znalostí, což zajišťuje, že k vyladění těchto modelů je zapotřebí pouze malé množství dat, na rozdíl od velkého množství trénovaných dat, která jsou zapotřebí, když se proces učení začíná od nuly pouze pro konkrétní aplikaci. Navrhujeme nový postup redukce textových dat pro jemné doladění modelu generování přirozeného jazyka - Unified Text to Text Transformer (T5) - s cílem shrnout zprávu o kontrole faktů. Nejprve se použije přístup Local Outlier Measure k vytvoření extraktivního shrnutí zprávy pomocí vektorizace vět pomocí kontextových reprezentací TF-IDF, DOC2VEC a BERT. Kromě toho je BERT vyladěn speciálně pro danou úlohu a dosahuje nejlepších výsledků ve srovnání s jinými vektorovými reprezentacemi. Nakonec se na základě těchto extrakčních souhrnů (zpráv obsahujících méně vět než původní zprávy) vyladí transformátor T5 tak, aby vznikly konečné abstraktní souhrny. V případě anglických textů z webu politifact.com nová metoda překonala všechny nejmodernější metody. Pokud jde o češtinu, byli jsme první, kdo aplikoval automatickou sumarizaci na data z demagog.cz. Pro srovnání jsme nový přístup použili také pro generování krátkých shrnutí pro známou českou sadu zpravodajských dat (SumeCzech); přestože jsme k vyladění modelu použili pouze 10 % původních natrénovaných dat, překonali jsme většinu nejnovějších výsledků.
Klíčová slova: BERT; TF-IDF; kontrola faktů; generování přirozeného jazyka; zpracování přirozeného jazyka; neuronová síť; lokální míra odlehlosti; architektura transformeru; DOC2VEC; sumarizace

Informace o studiu

Studijní program / obor: Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 6. 11. 2021
Datum podání práce: 2. 5. 2022
Datum obhajoby: 1. 6. 2022
Identifikátor v systému InSIS: https://insis.vse.cz/zp/78669/podrobnosti

Soubory ke stažení

    Poslední aktualizace: