An Empirical Study on the Evaluation of Large Language Models in the Czech Language and the Validation of "LLM-as-a-Judge"
| Thesis title: | Empirická studie o evaluaci LLM v českém jazyce a validaci LLM-as-a-Judge |
|---|---|
| Author: | Hrabáčová, Kateřina |
| Thesis type: | Diplomová práce |
| Supervisor: | Chudán, David |
| Opponents: | Sklenák, Vilém |
| Thesis language: | Česky |
| Abstract: | Diplomová práce se zaměřuje na problematiku evaluace velkých jazykových modelů (LLM) v českém prostředí a na ověření validity přístupu LLM-as-a-Judge jako nástroje pro automatizované hodnocení jejich výstupů. Motivací práce je nedostatečné zastoupení češtiny v existujících evaluačních studiích a zároveň rostoucí význam spolehlivého hodnocení generativních modelů v praxi. Hlavním cílem je zhodnotit výkonnost vybraných jazykových modelů při řešení úloh z českého jazyka a matematiky a posoudit míru shody mezi ručním hodnocením a automatizovaným hodnocením pomocí jiného jazykového modelu. V rámci práce je navržena experimentální metodika založená na testování různých typů modelů, včetně proprietárních, open-source i lokálně provozovaných řešení. Modely jsou hodnoceny na základě předem definovaných kritérií, přičemž výsledky jsou analyzovány z hlediska kvality odpovědí, rozdílů mezi typy úloh a konzistence výstupů při opakovaném generování. Zvláštní pozornost je věnována vlivu generativních parametrů na stabilitu modelových odpovědí. Výsledky ukazují, že mezi jednotlivými modely existují významné rozdíly ve výkonnosti a že přístup LLM-as-a-Judge dosahuje relativně vysoké míry shody s ručním hodnocením, avšak vykazuje určité systematické odchylky. Práce přispívá k lepšímu pochopení možností a limitů evaluace LLM v českém jazyce a nabízí doporučení pro jejich praktické využití. |
| Keywords: | LLM-as-a-Judge; český jazyk; konzistence modelů; velké jazykové modely; evaluace LLM |
| Thesis title: | An Empirical Study on the Evaluation of Large Language Models in the Czech Language and the Validation of "LLM-as-a-Judge" |
|---|---|
| Author: | Hrabáčová, Kateřina |
| Thesis type: | Diploma thesis |
| Supervisor: | Chudán, David |
| Opponents: | Sklenák, Vilém |
| Thesis language: | Česky |
| Abstract: | This thesis focuses on the evaluation of large language models (LLMs) in the Czech language context and examines the validity of the LLM-as-a-Judge approach as a method for automated assessment of model outputs. The motivation for this work stems from the limited representation of Czech in existing evaluation studies and the increasing importance of reliable evaluation of generative models in practical applications. The main objective is to assess the performance of selected language models on tasks related to the Czech language and mathematics, and to evaluate the level of agreement between human evaluation and automated evaluation performed by another language model. An experimental methodology is proposed, involving the testing of different types of models, including proprietary, open-source, and locally deployed solutions. The models are evaluated based on predefined criteria, and the results are analysed with respect to response quality, differences across task types, and output consistency under repeated generation. Special attention is given to the impact of generation parameters on the stability of model outputs. The results indicate significant differences in performance across models and show that the LLM-as-a-Judge approach achieves a relatively high level of agreement with human evaluation, although certain systematic deviations are observed. The thesis contributes to a better understanding of the capabilities and limitations of LLM evaluation in the Czech language and provides recommendations for their practical use. |
| Keywords: | LLM evaluation; LLM-as-a-Judge; Czech language; model consistency; large language models |
Information about study
| Study programme: | Znalostní a webové technologie |
|---|---|
| Type of study programme: | Magisterský studijní program |
| Assigned degree: | Ing. |
| Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
| Faculty: | Faculty of Informatics and Statistics |
| Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
| Date of assignment: | 9. 10. 2025 |
|---|---|
| Date of submission: | 1. 5. 2026 |
| Date of defense: | 8. 6. 2026 |
| Identifier in the InSIS system: | https://insis.vse.cz/zp/93907/podrobnosti |