Abstraktní sumarizace zpráv o ověřování faktů pomocí předem natrénovaného transformeru na extraktivních souhrnech
Název práce: | Abstractive summarization of fact check reports with pre-trained transformer tuning on extractive summaries |
---|---|
Autor(ka) práce: | Vajdečka, Peter |
Typ práce: | Diploma thesis |
Vedoucí práce: | Svátek, Vojtěch |
Oponenti práce: | Vencovský, Filip |
Jazyk práce: | English |
Abstrakt: | Fact checking is an activity aiming to remedy the global problem of disinformation spread. The result of this process, undertaken by numerous initiatives such as demagog.cz or politifact.com, are fact check reports written by human editors. Since the reports are frequently too long for a casual reader, and contain auxiliary parts not directly relevant for judging the claim veracity, automated creation of fact check report summaries is a topical task. The reader could then look at the shorter summary, containing the most salient points of the report, and then decide whether they dig deeper into some parts of the full report or not. In the field of natural language processing, neural network models with transformer architectures achieve state-of-the-art results on many downstream tasks, including text summarization. These models are trained on a massive textual knowledge base, which ensures that just a small quantity of data is required to fine-tune these models – in contrast to large amounts of training data needed when the learning process starts from scratch just for the particular application. We propose a novel procedure for text data reduction for the purpose of fine-tuning a natural language generation model, the Unified Text to Text Transformer (T5), in order to summarize a fact check report. First, the Local Outlier Factor approach is used to generate an extractive summary of the report, using sentence vectorization via the TF-IDF, DOC2VEC and BERT contextual representations. In addition, BERT is fine-tuned specifically for the given task and achieves the best results when compared to the other vector representations. Finally, the T5 Transformer is fine-tuned using these extractive summaries (reports containing fewer sentences than the original ones) to generate the final abstractive summaries. On English texts from politifact.com, the new method outperformed all state-of-the-art methods. As regards the Czech language, we were, to our knowledge, the first to apply automatic summarization to demagog.cz data. For comparison, the new procedure was also applied to generate short summaries for a known Czech news dataset (SumeCzech); although we only used 10 % of the initial training data for model fine-tuning, we overcame most of the state-of-the-art results. |
Klíčová slova: | natural language generation; local outlier factor; natural language processing; neural network; transformer architecture; BERT; TF-IDF; DOC2VEC; fact-checking; summarization |
Název práce: | Abstraktní sumarizace zpráv o ověřování faktů pomocí předem natrénovaného transformeru na extraktivních souhrnech |
---|---|
Autor(ka) práce: | Vajdečka, Peter |
Typ práce: | Diplomová práce |
Vedoucí práce: | Svátek, Vojtěch |
Oponenti práce: | Vencovský, Filip |
Jazyk práce: | English |
Abstrakt: | Kontrola faktů je činnost zaměřená na řešení celosvětového problému šíření dezinformací. Výsledkem tohoto procesu, který provádí řada iniciativ, jako je demagog.cz nebo politifact.com, jsou zprávy o ověřování faktů psané lidskými redaktory. Vzhledem k tomu, že zprávy jsou často pro běžného čtenáře příliš dlouhé a obsahují vedlejší části, které nejsou pro posouzení pravdivosti tvrzení přímo relevantní, je skutečným úkolem automatizovaná tvorba souhrnů zpráv pro kontrolu faktů. Vzhledem k tomu by se čtenář mohl podívat na kratší shrnutí, které obsahuje nejvýznamnější body zprávy, a rozhodnout se, zda se do některých částí celé zprávy ponoří hlouběji, či nikoli. V oblasti zpracování přirozeného jazyka dosahují modely neuronových sítí s architekturou transformátoru nejlepších výsledků v mnoha úlohách, včetně shrnutí textu. Tyto modely jsou trénovány na obrovské základně textových znalostí, což zajišťuje, že k vyladění těchto modelů je zapotřebí pouze malé množství dat, na rozdíl od velkého množství trénovaných dat, která jsou zapotřebí, když se proces učení začíná od nuly pouze pro konkrétní aplikaci. Navrhujeme nový postup redukce textových dat pro jemné doladění modelu generování přirozeného jazyka - Unified Text to Text Transformer (T5) - s cílem shrnout zprávu o kontrole faktů. Nejprve se použije přístup Local Outlier Measure k vytvoření extraktivního shrnutí zprávy pomocí vektorizace vět pomocí kontextových reprezentací TF-IDF, DOC2VEC a BERT. Kromě toho je BERT vyladěn speciálně pro danou úlohu a dosahuje nejlepších výsledků ve srovnání s jinými vektorovými reprezentacemi. Nakonec se na základě těchto extrakčních souhrnů (zpráv obsahujících méně vět než původní zprávy) vyladí transformátor T5 tak, aby vznikly konečné abstraktní souhrny. V případě anglických textů z webu politifact.com nová metoda překonala všechny nejmodernější metody. Pokud jde o češtinu, byli jsme první, kdo aplikoval automatickou sumarizaci na data z demagog.cz. Pro srovnání jsme nový přístup použili také pro generování krátkých shrnutí pro známou českou sadu zpravodajských dat (SumeCzech); přestože jsme k vyladění modelu použili pouze 10 % původních natrénovaných dat, překonali jsme většinu nejnovějších výsledků. |
Klíčová slova: | BERT; TF-IDF; kontrola faktů; generování přirozeného jazyka; zpracování přirozeného jazyka; neuronová síť; lokální míra odlehlosti; architektura transformeru; DOC2VEC; sumarizace |
Informace o studiu
Studijní program / obor: | Znalostní a webové technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 6. 11. 2021 |
---|---|
Datum podání práce: | 2. 5. 2022 |
Datum obhajoby: | 1. 6. 2022 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/78669/podrobnosti |