Empirická studie o evaluaci LLM v českém jazyce a validaci LLM-as-a-Judge
| Název práce: | Empirická studie o evaluaci LLM v českém jazyce a validaci LLM-as-a-Judge |
|---|---|
| Autor(ka) práce: | Hrabáčová, Kateřina |
| Typ práce: | Diplomová práce |
| Vedoucí práce: | Chudán, David |
| Oponenti práce: | Sklenák, Vilém |
| Jazyk práce: | Česky |
| Abstrakt: | Diplomová práce se zaměřuje na problematiku evaluace velkých jazykových modelů (LLM) v českém prostředí a na ověření validity přístupu LLM-as-a-Judge jako nástroje pro automatizované hodnocení jejich výstupů. Motivací práce je nedostatečné zastoupení češtiny v existujících evaluačních studiích a zároveň rostoucí význam spolehlivého hodnocení generativních modelů v praxi. Hlavním cílem je zhodnotit výkonnost vybraných jazykových modelů při řešení úloh z českého jazyka a matematiky a posoudit míru shody mezi ručním hodnocením a automatizovaným hodnocením pomocí jiného jazykového modelu. V rámci práce je navržena experimentální metodika založená na testování různých typů modelů, včetně proprietárních, open-source i lokálně provozovaných řešení. Modely jsou hodnoceny na základě předem definovaných kritérií, přičemž výsledky jsou analyzovány z hlediska kvality odpovědí, rozdílů mezi typy úloh a konzistence výstupů při opakovaném generování. Zvláštní pozornost je věnována vlivu generativních parametrů na stabilitu modelových odpovědí. Výsledky ukazují, že mezi jednotlivými modely existují významné rozdíly ve výkonnosti a že přístup LLM-as-a-Judge dosahuje relativně vysoké míry shody s ručním hodnocením, avšak vykazuje určité systematické odchylky. Práce přispívá k lepšímu pochopení možností a limitů evaluace LLM v českém jazyce a nabízí doporučení pro jejich praktické využití. |
| Klíčová slova: | LLM-as-a-Judge; český jazyk; konzistence modelů; velké jazykové modely; evaluace LLM |
| Název práce: | An Empirical Study on the Evaluation of Large Language Models in the Czech Language and the Validation of "LLM-as-a-Judge" |
|---|---|
| Autor(ka) práce: | Hrabáčová, Kateřina |
| Typ práce: | Diploma thesis |
| Vedoucí práce: | Chudán, David |
| Oponenti práce: | Sklenák, Vilém |
| Jazyk práce: | Česky |
| Abstrakt: | This thesis focuses on the evaluation of large language models (LLMs) in the Czech language context and examines the validity of the LLM-as-a-Judge approach as a method for automated assessment of model outputs. The motivation for this work stems from the limited representation of Czech in existing evaluation studies and the increasing importance of reliable evaluation of generative models in practical applications. The main objective is to assess the performance of selected language models on tasks related to the Czech language and mathematics, and to evaluate the level of agreement between human evaluation and automated evaluation performed by another language model. An experimental methodology is proposed, involving the testing of different types of models, including proprietary, open-source, and locally deployed solutions. The models are evaluated based on predefined criteria, and the results are analysed with respect to response quality, differences across task types, and output consistency under repeated generation. Special attention is given to the impact of generation parameters on the stability of model outputs. The results indicate significant differences in performance across models and show that the LLM-as-a-Judge approach achieves a relatively high level of agreement with human evaluation, although certain systematic deviations are observed. The thesis contributes to a better understanding of the capabilities and limitations of LLM evaluation in the Czech language and provides recommendations for their practical use. |
| Klíčová slova: | LLM evaluation; LLM-as-a-Judge; Czech language; model consistency; large language models |
Informace o studiu
| Studijní program / obor: | Znalostní a webové technologie |
|---|---|
| Typ studijního programu: | Magisterský studijní program |
| Přidělovaná hodnost: | Ing. |
| Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
| Fakulta: | Fakulta informatiky a statistiky |
| Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
| Datum zadání práce: | 9. 10. 2025 |
|---|---|
| Datum podání práce: | 1. 5. 2026 |
| Datum obhajoby: | 8. 6. 2026 |
| Identifikátor v systému InSIS: | https://insis.vse.cz/zp/93907/podrobnosti |