Empirické porovnání velkých jazykových modelů (LLM)

Název práce: Empirické porovnání velkých jazykových modelů (LLM)
Autor(ka) práce: Ježek, Petr
Typ práce: Diploma thesis
Vedoucí práce: Berka, Petr
Oponenti práce: Chudán, David
Jazyk práce: English
Abstrakt:
The aim of this paper is to find criteria suitable for evaluating and comparing large language models (LLM) and leveraging those criteria for model evaluation. The work includes a thorough description of large language models and the principles which they are based on, including an introduction to recent important breakthroughs responsible for their growing popularity. Furthermore, this work focuses on extensive analysis of the state of research and literature in the area of evaluation and comparison of large language models in the domain of software engineering. The aim of the thesis is to develop a methodology for the evaluation and comparison of large language models and to apply this methodology on the most popular large language models. The methodology takes the form of a benchmark and comes with a custom CLI application which automates the comparison of large language models in their ability to develop applications written in the Golang programming language using the Test Driven Development methodology. The models are graded based on their ability to fulfill functional requirements and iteratively develop applications which pass a set of automated tests. The generated applications are then reviewed in the qualitative analysis section, where code quality and adherence to best software engineering practices is checked. Also included is an analysis of the strengths and weaknesses of all selected models and recommendations are provided on what each model is suitable for and where caution is advised.
Klíčová slova: large language models; LLMs; empirical comparison; benchmark; software engineering; test driven development; golang
Název práce: Empirické porovnání velkých jazykových modelů (LLM)
Autor(ka) práce: Ježek, Petr
Typ práce: Diplomová práce
Vedoucí práce: Berka, Petr
Oponenti práce: Chudán, David
Jazyk práce: English
Abstrakt:
Velké jazykové modely (LLM) jsou v současnosti nejznámějším příkladem generativní umělé inteligence. Systémy jako ChatGPT, Claude nebo Gemini jsou schopny odpovídat na otázky a generovat rozsáhlé texty. Cílem této práce je na základě vhodně zvolených dotazů odhalit silné a slabé stránky jednotlivých nástrojů, navrhnout vhodná hodnotící kritéria a s využitím těchto kritérií tyto nástroje porovnat. Součástí práce je popis jazykových modelů a principů na kterých jsou založeny včetně seznámení s důležitými průlomy, které vysvětlují jejich rostoucí popularitu. Dále je provedena analýza stavu výzkumu a literatury v oblasti evaluace a porovnávání velkých jazykových modelů se zaměřením na využití v softwarovém inženýrství. Výsledkem práce je metodologie pro porovnání včetně její aplikace na množinu nejpoužívanějších modelů. Metodologie v podobě benchmarku je podpořena vlastní konzolovou aplikací, která umožňuje automatické srovnání modelů ve schopnosti vyvíjet aplikace dle metodiky Test Driven Development v jazyce Golang. Modely jsou obodovány na základě schopnosti zpracovat funkční požadavky a iterativně vyvinout aplikace splňující sadu automatických testů. Vygenerované aplikace jsou navíc podrobeny kvalitativní analýze na základě code review, kde je hodnocena kvalita kódu a dodržení správných postupů softwarového vývoje. Na závěr jsou vyjmenovány silné a slabé stránky jednotlivých modelů a doporučení, k čemu jsou jednotlivé modely vhodné a kde je naopak třeba obezřetnosti.
Klíčová slova: LLMs; empirické porovnání; benchmark; softwarové inženýrství; test driven development; golang; velké jazykové modely

Informace o studiu

Studijní program / obor: Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 20. 3. 2024
Datum podání práce: 1. 12. 2024
Datum obhajoby: 20. 1. 2025
Identifikátor v systému InSIS: https://insis.vse.cz/zp/88091/podrobnosti

Soubory ke stažení

    Poslední aktualizace: