Computational analysis of the credibility of Internet sources using large language models

Thesis title: Výpočetní analýza kredibility internetových zdrojů pomocí jazykových modelů
Author: Anton, Vojtěch
Thesis type: Bakalářská práce
Supervisor: Kliegr, Tomáš
Opponents: Vomlel, Jiří
Thesis language: Česky
Abstract:
Tato bakalářská práce se zabývá výpočetní analýzou kredibility internetových zdrojů s využitím velkých jazykových modelů. Hlavním cílem je navrhnout a otestovat metodu, která k hodnocení důvěryhodnosti médií využívá informace implicitně obsažené v těchto modelech, konkrétně jejich interní reprezentace a míru jazykové nejistoty. V rámci experimentální části jsou využity modely Llama 3 a Qwen 3 k výpočtu tzv. delta skóre, které vyjadřuje míru asociace daného zdroje s pozitivními nebo negativními přídavnými jmény v residuálním streamu jazykového modelu. Tato skóre jsou následně s perplexitou použita jako prediktory v binární logistické regresi pro klasifikaci zdrojů jako důvěryhodné a nedůvěryhodné. Navržená metoda je porovnávána s běžnou metodou přímého dotazování (promptování). Výsledky testování na dvou datasetech různých velikostí prokázaly, že metoda využívající interní aktivace dosahuje srovnatelné efektivity jako přímé dotazování, přičemž nabízí jemnější nástroj pro hodnocení a seřazení zdrojů. Výsledky této práce naznačují, že interní reprezentace jazykových modelů mohou obsahovat signály využitelné pro odhad kredibility zdrojů. Na větším datasetu však metoda dosahuje pouze mírně lepších výsledků než přímé dotazování, a proto je třeba její přínos interpretovat opatrně.
Keywords: kredibilita internetových zdrojů; velké jazykové modely (LLM); interní aktivace; logistická regrese; Llama 3; Qwen 3
Thesis title: Computational analysis of the credibility of Internet sources using large language models
Author: Anton, Vojtěch
Thesis type: Bachelor thesis
Supervisor: Kliegr, Tomáš
Opponents: Vomlel, Jiří
Thesis language: Česky
Abstract:
This bachelor's thesis deals with computational analysis of the credibility of Internet sources using large language models. The main goal is to propose and test a method that uses the information implicitly contained in these models to assess the credibility of media, specifically their internal representation and the level of linguistic uncertainty. In the experimental part, the Llama 3 and Qwen 3 models are used to calculate the so-called delta score, which expresses the degree of association of a given source with positive or negative adjectives in the residual stream of the language model. These scores are subsequently used with perplexity as predictors in binary logistic regression to classify sources as trustworthy and untrustworthy. The proposed method is compared with the common method of direct questioning (prompting). The results of testing on two datasets of different sizes have shown that the method using internal activation achieves comparable efficiency as direct questioning, while offering a more refined tool for evaluating and ranking sources. The work confirms that the internal states of language models represent a robust and valid source of information for automated assessment of the credibility of Internet content.
Keywords: credibility of Internet sources; Qwen 3; large language models (LLM); internal activation; logistic regression; Llama 3

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 11. 8. 2025
Date of submission: 7. 5. 2026
Date of defense: 19. 6. 2026
Identifier in the InSIS system: https://insis.vse.cz/zp/93040/podrobnosti

Files for download

    Last update: