Sémantická reprezentace daňové legislativy pomocí LLM

Název práce: Sémantická reprezentace daňové legislativy pomocí LLM
Autor(ka) práce: Hošková, Michaela
Typ práce: Diplomová práce
Vedoucí práce: Stanovská, Iva
Oponenti práce: Cebáková, Tereza
Jazyk práce: Česky
Abstrakt:
Diplomová práce se zabývá návrhem a implementací aplikace pro sémantické vyhledávání a generování odpovědí nad texty české daňové legislativy. Úvodní část analyzuje specifika právních textů, limity tradičních přístupů a představuje moderní metody založené na architektuře RAG a vektorových reprezentacích. Návrhová část vymezuje požadavky vycházející z hierarchické struktury, časové proměnlivosti a potřeby dohledatelnosti legislativních dat. Na jejich základě je navržena modulární architektura a datový model kombinující různé způsoby reprezentace informací včetně procesu automatizovaného zpracování dat. Práce dále popisuje implementaci prototypu a několik variant vyhledávací vrstvy lišících se způsobem práce s kontextem. Závěr je věnován experimentálnímu ověření systému a hodnocení kvality generovaných odpovědí pomocí automatizovaných metrik i manuální evaluace.
Klíčová slova: sémantické vyhledávání; daňová legislativa; RAG; LLM; NLP; vektorová reprezentace
Název práce: Semantic Representation of Tax Legislation Using LLMs
Autor(ka) práce: Hošková, Michaela
Typ práce: Diploma thesis
Vedoucí práce: Stanovská, Iva
Oponenti práce: Cebáková, Tereza
Jazyk práce: Česky
Abstrakt:
This Master's thesis focuses on the design and implementation of an application for semantic search and response generation over Czech tax legislation texts. The introductory part analyzes the specifics of legal texts, the limitations of traditional approaches, and presents modern methods based on the RAG architecture and vector representations. The design section defines requirements based on the hierarchical structure, temporal variability, and the need for source traceability in legislative data. Based on these, a modular architecture and a data model combining various information representation methods are proposed, including an automated data processing workflow. The thesis further describes the prototype implementation and several variants of the retrieval layer that differ in how they handle context. The conclusion is dedicated to the experimental verification of the system and the evaluation of the quality of generated responses using both automated metrics and manual evaluation.
Klíčová slova: LLM; semantic search; tax legislation; RAG; vector representation; NLP

Informace o studiu

Studijní program / obor: Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 23. 10. 2025
Datum podání práce: 3. 5. 2026
Datum obhajoby: 1. 6. 2026
Identifikátor v systému InSIS: https://insis.vse.cz/zp/94227/podrobnosti

Soubory ke stažení

    Poslední aktualizace: