Evaluační techniky efektivnosti LLM (Large Language Models)
Název práce: | Evaluační techniky efektivnosti LLM (Large Language Models) |
---|---|
Autor(ka) práce: | Bruch, Stanislav |
Typ práce: | Diplomová práce |
Vedoucí práce: | Umlauf, Miroslav |
Oponenti práce: | Novák, Martin |
Jazyk práce: | Česky |
Abstrakt: | Diplomová práce představuje komplexní metodiku pro systematické hodnocení velkých jazykových modelů (LLM) v kontextu firemního nasazení ve společnosti Easy Software. Hlavním cílem práce je vytvoření systematického evaluačního frameworku, který umožní objektivní hodnocení kvality promptů před jejich nasazením do produkčního prostředí softwaru. Práce propojuje teoretické poznatky o evaluaci LLM s praktickou implementací evaluačního systému založeného na nástroji LangSmith a specializovaných LLM evaluátorech. V rámci práce je navržena a implementována evaluační metodika umožňující systematické porovnávání promptů a modelů na základě definovaných kritérií hodnocení. Zároveň je provedena jejich validace. Výsledky práce poskytují metodologický základ pro evaluace AI výstupů a modelů v komerční sféře a mohou sloužit jako referenční rámec pro implementaci podobných evaluačních procesů v dalších softwarových organizacích. Práce přispívá k lepšímu porozumění výkonnostním kritériím jazykových modelů a jejich praktické využitelnosti při integraci AI do firemních aplikací. |
Klíčová slova: | umělá inteligence; large language models; LangSmith; evaluace; prompty; datasety; OpenAI; Llama; LLM judge |
Název práce: | Evaluation techniques for the effectiveness of LLM (Large Language Models) |
---|---|
Autor(ka) práce: | Bruch, Stanislav |
Typ práce: | Diploma thesis |
Vedoucí práce: | Umlauf, Miroslav |
Oponenti práce: | Novák, Martin |
Jazyk práce: | Česky |
Abstrakt: | The thesis presents a comprehensive methodology for the systematic evaluation of large language models (LLMs) in the context of an enterprise deployment at Easy Software. The main goal of the thesis is to develop a systematic evaluation framework that allows for an objective assessment of the quality of the prompts before their deployment in a production software environment. It combines theoretical knowledge in the field of language model evaluation with the practical implementation of an evaluation system based on the LangSmith tool and specialized LLM evaluators. The thesis proposes and implements an evaluation methodology that enables systematic comparison of prompts and models based on defined evaluation criteria. At the same time, their validation is performed. The results of the work provide a methodological basis for the evaluations of AI outputs and models in the commercial sphere and can serve as a reference framework for the implementation of similar evaluation processes in other software organizations. The work contributes to a better understanding of the performance criteria of language models and their practical applicability in integrating AI into business applications. |
Klíčová slova: | large language models; artificial intelligence; evaluation; prompts; datasets; OpenAI; Llama; LLM judge; LangSmith |
Informace o studiu
Studijní program / obor: | Data a analytika pro business |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
Datum zadání práce: | 3. 12. 2024 |
---|---|
Datum podání práce: | 3. 5. 2025 |
Datum obhajoby: | 6. 6. 2025 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/90630/podrobnosti |