Empirické porovnání velkých jazykových modelů (LLM)
Název práce: | Empirické porovnání velkých jazykových modelů (LLM) |
---|---|
Autor(ka) práce: | Ježek, Petr |
Typ práce: | Diploma thesis |
Vedoucí práce: | Berka, Petr |
Oponenti práce: | Chudán, David |
Jazyk práce: | English |
Abstrakt: | The aim of this paper is to find criteria suitable for evaluating and comparing large language models (LLM) and leveraging those criteria for model evaluation. The work includes a thorough description of large language models and the principles which they are based on, including an introduction to recent important breakthroughs responsible for their growing popularity. Furthermore, this work focuses on extensive analysis of the state of research and literature in the area of evaluation and comparison of large language models in the domain of software engineering. The aim of the thesis is to develop a methodology for the evaluation and comparison of large language models and to apply this methodology on the most popular large language models. The methodology takes the form of a benchmark and comes with a custom CLI application which automates the comparison of large language models in their ability to develop applications written in the Golang programming language using the Test Driven Development methodology. The models are graded based on their ability to fulfill functional requirements and iteratively develop applications which pass a set of automated tests. The generated applications are then reviewed in the qualitative analysis section, where code quality and adherence to best software engineering practices is checked. Also included is an analysis of the strengths and weaknesses of all selected models and recommendations are provided on what each model is suitable for and where caution is advised. |
Klíčová slova: | large language models; LLMs; empirical comparison; benchmark; software engineering; test driven development; golang |
Název práce: | Empirické porovnání velkých jazykových modelů (LLM) |
---|---|
Autor(ka) práce: | Ježek, Petr |
Typ práce: | Diplomová práce |
Vedoucí práce: | Berka, Petr |
Oponenti práce: | Chudán, David |
Jazyk práce: | English |
Abstrakt: | Velké jazykové modely (LLM) jsou v současnosti nejznámějším příkladem generativní umělé inteligence. Systémy jako ChatGPT, Claude nebo Gemini jsou schopny odpovídat na otázky a generovat rozsáhlé texty. Cílem této práce je na základě vhodně zvolených dotazů odhalit silné a slabé stránky jednotlivých nástrojů, navrhnout vhodná hodnotící kritéria a s využitím těchto kritérií tyto nástroje porovnat. Součástí práce je popis jazykových modelů a principů na kterých jsou založeny včetně seznámení s důležitými průlomy, které vysvětlují jejich rostoucí popularitu. Dále je provedena analýza stavu výzkumu a literatury v oblasti evaluace a porovnávání velkých jazykových modelů se zaměřením na využití v softwarovém inženýrství. Výsledkem práce je metodologie pro porovnání včetně její aplikace na množinu nejpoužívanějších modelů. Metodologie v podobě benchmarku je podpořena vlastní konzolovou aplikací, která umožňuje automatické srovnání modelů ve schopnosti vyvíjet aplikace dle metodiky Test Driven Development v jazyce Golang. Modely jsou obodovány na základě schopnosti zpracovat funkční požadavky a iterativně vyvinout aplikace splňující sadu automatických testů. Vygenerované aplikace jsou navíc podrobeny kvalitativní analýze na základě code review, kde je hodnocena kvalita kódu a dodržení správných postupů softwarového vývoje. Na závěr jsou vyjmenovány silné a slabé stránky jednotlivých modelů a doporučení, k čemu jsou jednotlivé modely vhodné a kde je naopak třeba obezřetnosti. |
Klíčová slova: | LLMs; empirické porovnání; benchmark; softwarové inženýrství; test driven development; golang; velké jazykové modely |
Informace o studiu
Studijní program / obor: | Znalostní a webové technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 20. 3. 2024 |
---|---|
Datum podání práce: | 1. 12. 2024 |
Datum obhajoby: | 20. 1. 2025 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/88091/podrobnosti |