Large Language Models: Performance in High School Czech Language and Mathematics

Thesis title: Velké jazykové modely: výkonnost ve středoškolské češtině a matematice
Author: Richter, Jan
Thesis type: Bakalářská práce
Supervisor: Chudán, David
Opponents: Sklenák, Vilém
Thesis language: Česky
Abstract:
V posledních letech se velké jazykové modely (LLM) vyvíjejí mimořádně rychle a jejich využití v každodenním životě i odborné praxi výrazně narůstá. Ačkoli jsou tyto modely vyvíjeny převážně v USA a Asii, dokážou komunikovat ve mnoha jazycích, včetně češtiny. Otázkou však zůstává, jak dobře současné LLM českému jazyku skutečně rozumějí a nakolik jsou schopny řešit středoškolské matematické úlohy zadané v češtině. Cílem této bakalářské práce je zhodnotit úroveň jazykových a matematických schopností nejnovější generace LLM a porovnat jejich výkonnost s výsledky starších modelů. Testování probíhalo na úlohách převzatých ze standardizovaných maturitních didaktických testů a testů SCIO, což umožňuje přímé srovnání. Do analýzy byly zahrnuty jak nejmodernější closed-source modely jako je GPT nebo Gemini, tak výkonné open-source modely jako Gemma, Qwen či Llama. Výkonnosti jednotlivých modelů jsou vzájemně porovnány a konfrontovány s daty z bakalářské práce K. Hrabáčové (Hrabáčová, 2024), která mapuje výkonnost starších generací LLM. Výsledky ukazují výrazné zlepšení schopností současných LLM v českém jazyce i matematice, přestože určité slabiny přetrvávají, zejména v oblasti detekce gramatických chyb. Práce tak přispívá k hlubšímu porozumění možnostem i limitům aktuálních LLM a dokládá rychlý vývoj tohoto technologického odvětví.
Keywords: LLM; velké jazykové modely; AI; umělá inteligence; český jazyk; matematika; komparace LLM; čeština
Thesis title: Large Language Models: Performance in High School Czech Language and Mathematics
Author: Richter, Jan
Thesis type: Bachelor thesis
Supervisor: Chudán, David
Opponents: Sklenák, Vilém
Thesis language: Česky
Abstract:
In recent years, large language models (LLMs) have been developing at an exceptional pace, and their use in both everyday life and professional practice has grown significantly. Although these models are primarily developed in the United States and Asia, they can communicate in many languages, including Czech. However, the question remains as to how well current LLMs truly understand the Czech language and to what extent they can solve high-school mathematics problems presented in Czech. The aim of this bachelor thesis is to evaluate the level of linguistic and mathematical capabilities of the latest generation of LLMs and to compare their performance with the results of older models. Testing was conducted using tasks adapted from standardized high-school didactic tests and SCIO tests, enabling direct comparison. The analysis incorporates both state-of-the-art closed-source models, such as GPT and Gemini, and powerful open-source models, such as Gemma, Qwen, and Llama. The performance of individual models is cross-compared and compared against data from the bachelor thesis of K. Hrabáčová (Hrabáčová, 2024), which maps the performance of older generations of LLMs. The results demonstrate a significant improvement in the capabilities of current LLMs in both the Czech language and mathematics, although certain weaknesses persist, mainly in the domain of grammatical error detection. This thesis thus contributes to a deeper understanding of the capabilities and limitations of current LLMs and illustrates the rapid evolution of this technological field.
Keywords: large language models; AI; Czech language; mathematics; comparison of LLMs; LLM; artificial intelligence

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 23. 5. 2025
Date of submission: 5. 12. 2025
Date of defense: 27. 1. 2026
Identifier in the InSIS system: https://insis.vse.cz/zp/92472/podrobnosti

Files for download

    Last update: