Návrh a testování běhových prostředí pro autonomní coding agenty v softwarovém vývoji
| Název práce: | Návrh a testování běhových prostředí pro autonomní coding agenty v softwarovém vývoji |
|---|---|
| Autor(ka) práce: | Nguyen, Thanh An |
| Typ práce: | Bakalářská práce |
| Vedoucí práce: | Korčák, Jiří |
| Oponenti práce: | Novák, Richard Antonín |
| Jazyk práce: | Česky |
| Abstrakt: | AI coding agenti dokáží samostatně generovat kód, testy i vývojové artefakty, ale jejich praktická použitelnost nezávisí jen na tom, zda výsledný program projde testy. Pro nasazení ve vývoji je důležité také to, jak agent pracoval, zda zanechal auditovatelnou stopu a jakou kvalitu má výsledný kód. Současné benchmarky tyto dimenze typicky nezachycují společně a chybí postup, jak podle nich systematicky navrhovat instrukce. Práce proto navrhuje sadu metrik pokrývající proces, kvalitu produktu a zdroje a ukazuje, jak ji použít k iterativnímu návrhu instrukcí. Proveditelnost postupu ověřuje případová studie systému upomínek faktur. Agent opakovaně implementuje stejnou specifikaci, výsledky jsou vyhodnoceny navrženými metrikami a instrukce jsou mezi běhy upravovány podle diagnostiky selhání. Následné ablace zkoumají, které složky instrukcí mají měřitelný přínos. Výsledky ukazují, že metriky dokáží odlišit funkčně úspěšný výstup od výstupu vzniklého slabým nebo neauditovatelným procesem. Iterativní úpravy instrukcí vedly ke zlepšení, ale toto zlepšení nebylo plynulé napříč běhy. Některé změny způsobily regresi a stejné instrukce vedly v různých bězích k odlišnému dodržení pracovního postupu. Opakovaným vzorcem úspěšných úprav byl posun od obecného pravidla ke konkrétnímu příkazu a nakonec k verifikačnímu kroku. Ablace ukázaly, že verifikační kroky nejsou redundantní. Odebrání části kódových konvencí deterministické metriky téměř nezhoršilo, ale zhoršilo designovou kvalitu hodnocenou LLM-as-judge. Přínosem práce je ověření proveditelnosti sady metrik a iterativního postupu návrhu instrukcí na jednom případu. Konkrétní naměřené hodnoty platí pro daný model, nástroj a projekt. Přenositelný je postup a sada metrik. Otevřenou otázkou zůstává, zda vzorec operacionalizace platí i mimo programování. |
| Klíčová slova: | AI coding agent; AGENTS.md; metriky kvality software; iterativní návrh |
| Název práce: | Design and Testing of Runtime Environments for Autonomous Coding Agents in Software Development |
|---|---|
| Autor(ka) práce: | Nguyen, Thanh An |
| Typ práce: | Bachelor thesis |
| Vedoucí práce: | Korčák, Jiří |
| Oponenti práce: | Novák, Richard Antonín |
| Jazyk práce: | Česky |
| Abstrakt: | AI coding agents can autonomously generate code, tests, and other development artifacts, but their practical usefulness depends on more than whether the resulting program passes tests. How the agent worked, whether it left an auditable trace, and the quality of the resulting code also matter. Existing benchmarks rarely capture these dimensions together, and no established process exists for designing instructions against such measurements. This thesis proposes a metric suite covering process, product quality, and resources, and shows how it can guide iterative instruction design. Its feasibility is evaluated on a case study of a billing reminder system: the agent repeatedly implements the same specification, each run is evaluated by the proposed metrics, and the instructions are revised based on diagnosed failures. Subsequent ablations examine which instruction components contribute measurably. Results show that the metrics can distinguish a functionally successful output from one produced by a weak or non-auditable process. Iterative instruction changes improved agent behavior, though not steadily: some changes caused regressions, and identical instructions produced different process adherence across runs. Successful changes followed a recurring pattern: a shift from general rule to specific command to verification step. Ablations showed that verification steps are not redundant; removing part of the code-convention section had little effect on deterministic metrics but reduced design quality assessed by an LLM-as-judge. The contribution is a feasibility evaluation of the metric suite and instruction-design process on a single case. Specific measured values are bound to the model, tool, and project; what transfers is the process and the metric suite. Whether the observed operationalization pattern holds outside programming remains an open question. |
| Klíčová slova: | iterative design; AGENTS.md; AI coding agent ; software quality metrics |
Informace o studiu
| Studijní program / obor: | Aplikovaná informatika |
|---|---|
| Typ studijního programu: | Bakalářský studijní program |
| Přidělovaná hodnost: | Bc. |
| Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
| Fakulta: | Fakulta informatiky a statistiky |
| Katedra: | Katedra systémové analýzy |
Informace o odevzdání a obhajobě
| Datum zadání práce: | 29. 1. 2026 |
|---|---|
| Datum podání práce: | 11. 5. 2026 |
| Datum obhajoby: | 23. 6. 2026 |
| Identifikátor v systému InSIS: | https://insis.vse.cz/zp/95361/podrobnosti |