An Empirical Study on the Evaluation of Large Language Models in the Czech Language and the Validation of "LLM-as-a-Judge"

Thesis title: Empirická studie o evaluaci LLM v českém jazyce a validaci LLM-as-a-Judge
Author: Hrabáčová, Kateřina
Thesis type: Diplomová práce
Supervisor: Chudán, David
Opponents: Sklenák, Vilém
Thesis language: Česky
Abstract:
Diplomová práce se zaměřuje na problematiku evaluace velkých jazykových modelů (LLM) v českém prostředí a na ověření validity přístupu LLM-as-a-Judge jako nástroje pro automatizované hodnocení jejich výstupů. Motivací práce je nedostatečné zastoupení češtiny v existujících evaluačních studiích a zároveň rostoucí význam spolehlivého hodnocení generativních modelů v praxi. Hlavním cílem je zhodnotit výkonnost vybraných jazykových modelů při řešení úloh z českého jazyka a matematiky a posoudit míru shody mezi ručním hodnocením a automatizovaným hodnocením pomocí jiného jazykového modelu. V rámci práce je navržena experimentální metodika založená na testování různých typů modelů, včetně proprietárních, open-source i lokálně provozovaných řešení. Modely jsou hodnoceny na základě předem definovaných kritérií, přičemž výsledky jsou analyzovány z hlediska kvality odpovědí, rozdílů mezi typy úloh a konzistence výstupů při opakovaném generování. Zvláštní pozornost je věnována vlivu generativních parametrů na stabilitu modelových odpovědí. Výsledky ukazují, že mezi jednotlivými modely existují významné rozdíly ve výkonnosti a že přístup LLM-as-a-Judge dosahuje relativně vysoké míry shody s ručním hodnocením, avšak vykazuje určité systematické odchylky. Práce přispívá k lepšímu pochopení možností a limitů evaluace LLM v českém jazyce a nabízí doporučení pro jejich praktické využití.
Keywords: LLM-as-a-Judge; český jazyk; konzistence modelů; velké jazykové modely; evaluace LLM
Thesis title: An Empirical Study on the Evaluation of Large Language Models in the Czech Language and the Validation of "LLM-as-a-Judge"
Author: Hrabáčová, Kateřina
Thesis type: Diploma thesis
Supervisor: Chudán, David
Opponents: Sklenák, Vilém
Thesis language: Česky
Abstract:
This thesis focuses on the evaluation of large language models (LLMs) in the Czech language context and examines the validity of the LLM-as-a-Judge approach as a method for automated assessment of model outputs. The motivation for this work stems from the limited representation of Czech in existing evaluation studies and the increasing importance of reliable evaluation of generative models in practical applications. The main objective is to assess the performance of selected language models on tasks related to the Czech language and mathematics, and to evaluate the level of agreement between human evaluation and automated evaluation performed by another language model. An experimental methodology is proposed, involving the testing of different types of models, including proprietary, open-source, and locally deployed solutions. The models are evaluated based on predefined criteria, and the results are analysed with respect to response quality, differences across task types, and output consistency under repeated generation. Special attention is given to the impact of generation parameters on the stability of model outputs. The results indicate significant differences in performance across models and show that the LLM-as-a-Judge approach achieves a relatively high level of agreement with human evaluation, although certain systematic deviations are observed. The thesis contributes to a better understanding of the capabilities and limitations of LLM evaluation in the Czech language and provides recommendations for their practical use.
Keywords: LLM evaluation; LLM-as-a-Judge; Czech language; model consistency; large language models

Information about study

Study programme: Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 9. 10. 2025
Date of submission: 1. 5. 2026
Date of defense: 8. 6. 2026
Identifier in the InSIS system: https://insis.vse.cz/zp/93907/podrobnosti

Files for download

    Last update: