From training data to outputs: How language models inherit patterns from text data
| Thesis title: | Od tréninkových dat k výstupům: Jak jazykové modely přebírají vzorce z textových korpusů |
|---|---|
| Author: | Rubeš, Ondřej |
| Thesis type: | Diplomová práce |
| Supervisor: | Kliegr, Tomáš |
| Opponents: | Berka, Petr |
| Thesis language: | Česky |
| Abstract: | Stylové chování velkých jazykových modelů se může při jemném doladění výrazně měnit podle povahy trénovacích dat. Tato diplomová práce zkoumá, zda adaptace modelu na stylově konzistentní korpus jednoho autora vede k měřitelným změnám v generovaných textech a jakým způsobem lze tyto změny systematicky vyhodnotit. Hlavním cílem je experimentálně posoudit rozsah stylistického posunu po jemném doladění a ověřit jej pomocí vícerozměrné kvantitativní analýzy. Práce je rozdělena do šesti kapitol. Úvodní část shrnuje teoretická východiska analýzy diskurzu, stylometrie a fungování velkých jazykových modelů. Následuje vytvoření referenčního diskurzního profilu autora, založeného na kvalitativní analýze vybraných segmentů. Hlavní část práce popisuje návrh experimentu zahrnující přípravu trénovacího korpusu, jemné doladění tří modelových architektur (GPT-2, Mistral, Qwen), konstrukci evaluační promptové sady a generování textových výstupů. Závěrečná analytická část hodnotí jazykové posuny v lexikální, syntaktické, pragmatické, emoční a embeddingové rovině a porovnává chování modelů před a po doladění. Výsledky ukazují, že jemné doladění způsobuje konzistentní stylistické změny napříč všemi třemi modely. Nejvýrazněji se projevují ve stabilizaci slovní zásoby, změnách v distribuci slovních druhů, úpravě výpovědního tónu a ve způsobu organizace vět. Embeddingové ukazatele potvrzují celkové přiblížení generovaných textů k referenčnímu stylu autora, přičemž nejstabilnější adaptaci vykazují modely Qwen a Mistral. Analýza zároveň neprokazuje zvýšení toxicity ani zhoršení technické kvality textů. |
| Keywords: | stylometrie; jemné doladění; velké jazykové modely |
| Thesis title: | From training data to outputs: How language models inherit patterns from text data |
|---|---|
| Author: | Rubeš, Ondřej |
| Thesis type: | Diploma thesis |
| Supervisor: | Kliegr, Tomáš |
| Opponents: | Berka, Petr |
| Thesis language: | Česky |
| Abstract: | The stylistic behavior of large language models can change considerably when fine-tuned on narrowly focused datasets. This thesis examines whether adapting a model to a stylistically consistent data corpus of a single author leads to measurable changes in generated texts, and how such changes can be systematically evaluated. The main objective is to experimentally assess the extent of stylistic shift induced by fine-tuning and to verify it using multidimensional quantitative analysis. The thesis is divided into six chapters. The introductory part outlines the theoretical foundations of discourse analysis, stylometry, and the functioning of large language models. This is followed by the construction of a reference discourse profile of the author, based on qualitative analysis of selected segments. The core of the thesis describes the experimental setup, including the preparation of the training corpus, fine-tuning of three model architectures (GPT-2, Mistral, Qwen), the design of an evaluation prompt set, and the generation of model outputs. The final analytical section evaluates linguistic shifts across lexical, syntactic, pragmatic, emotional, and embedding-based dimensions, comparing model behavior before and after fine-tuning. The results show that fine-tuning induces consistent stylistic changes across all three models. The most notable shifts appear in the stabilization of vocabulary, changes in the distribution of parts of speech, adjustments in overall tonal expression, and modifications to sentence organization. Embedding-based metrics confirm a global shift of generated texts toward the reference author’s style, with Qwen and Mistral displaying the most stable adaptation. Importantly, the analysis does not indicate any increase in toxicity or degradation of technical text quality. |
| Keywords: | fine-tuning; large language models; stylometry |
Information about study
| Study programme: | Kognitivní informatika |
|---|---|
| Type of study programme: | Magisterský studijní program |
| Assigned degree: | Ing. |
| Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
| Faculty: | Faculty of Informatics and Statistics |
| Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
| Date of assignment: | 28. 3. 2025 |
|---|---|
| Date of submission: | 30. 11. 2025 |
| Date of defense: | 20. 1. 2026 |
| Identifier in the InSIS system: | https://insis.vse.cz/zp/92040/podrobnosti |