Sémantická reprezentace daňové legislativy pomocí LLM
| Název práce: | Sémantická reprezentace daňové legislativy pomocí LLM |
|---|---|
| Autor(ka) práce: | Hošková, Michaela |
| Typ práce: | Diplomová práce |
| Vedoucí práce: | Stanovská, Iva |
| Oponenti práce: | Cebáková, Tereza |
| Jazyk práce: | Česky |
| Abstrakt: | Diplomová práce se zabývá návrhem a implementací aplikace pro sémantické vyhledávání a generování odpovědí nad texty české daňové legislativy. Úvodní část analyzuje specifika právních textů, limity tradičních přístupů a představuje moderní metody založené na architektuře RAG a vektorových reprezentacích. Návrhová část vymezuje požadavky vycházející z hierarchické struktury, časové proměnlivosti a potřeby dohledatelnosti legislativních dat. Na jejich základě je navržena modulární architektura a datový model kombinující různé způsoby reprezentace informací včetně procesu automatizovaného zpracování dat. Práce dále popisuje implementaci prototypu a několik variant vyhledávací vrstvy lišících se způsobem práce s kontextem. Závěr je věnován experimentálnímu ověření systému a hodnocení kvality generovaných odpovědí pomocí automatizovaných metrik i manuální evaluace. |
| Klíčová slova: | sémantické vyhledávání; daňová legislativa; RAG; LLM; NLP; vektorová reprezentace |
| Název práce: | Semantic Representation of Tax Legislation Using LLMs |
|---|---|
| Autor(ka) práce: | Hošková, Michaela |
| Typ práce: | Diploma thesis |
| Vedoucí práce: | Stanovská, Iva |
| Oponenti práce: | Cebáková, Tereza |
| Jazyk práce: | Česky |
| Abstrakt: | This Master's thesis focuses on the design and implementation of an application for semantic search and response generation over Czech tax legislation texts. The introductory part analyzes the specifics of legal texts, the limitations of traditional approaches, and presents modern methods based on the RAG architecture and vector representations. The design section defines requirements based on the hierarchical structure, temporal variability, and the need for source traceability in legislative data. Based on these, a modular architecture and a data model combining various information representation methods are proposed, including an automated data processing workflow. The thesis further describes the prototype implementation and several variants of the retrieval layer that differ in how they handle context. The conclusion is dedicated to the experimental verification of the system and the evaluation of the quality of generated responses using both automated metrics and manual evaluation. |
| Klíčová slova: | LLM; semantic search; tax legislation; RAG; vector representation; NLP |
Informace o studiu
| Studijní program / obor: | Znalostní a webové technologie |
|---|---|
| Typ studijního programu: | Magisterský studijní program |
| Přidělovaná hodnost: | Ing. |
| Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
| Fakulta: | Fakulta informatiky a statistiky |
| Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
| Datum zadání práce: | 23. 10. 2025 |
|---|---|
| Datum podání práce: | 3. 5. 2026 |
| Datum obhajoby: | 1. 6. 2026 |
| Identifikátor v systému InSIS: | https://insis.vse.cz/zp/94227/podrobnosti |