Návrh metodiky pro automatickou klasifikaci dokumentů ve veřejné správě s využitím velkých jazykových modelů
| Název práce: | Návrh metodiky pro automatickou klasifikaci dokumentů ve veřejné správě s využitím velkých jazykových modelů |
|---|---|
| Autor(ka) práce: | Kyzrová, Johana |
| Typ práce: | Diplomová práce |
| Vedoucí práce: | Umlauf, Miroslav |
| Oponenti práce: | Maryška, Miloš |
| Jazyk práce: | Česky |
| Abstrakt: | Tato diplomová práce se zabývá návrhem systému pro automatickou klasifikaci dokumentů ve veřejné správě a jeho ověřením podle požadavků evropského regulatorního rámce. Návrh vychází z analýzy dokumentového úložiště Ministerstva průmyslu a obchodu a zhodnocení současných metod klasifikace. Motivací je potřeba efektivního třídění milionů dokumentů, což je klíčové pro prevenci úniku dat i budoucí rozvoj inteligentních služeb. Analýza současných přístupů i konzultace s trhem ukázaly, že moderní jazykové modely poskytují nejvhodnější řešení. Na základě toho byla zvolena metoda Retrieval Augmented Classification, doplněná o zero-shot postup pro obecné typy dokumentů. Součástí práce je také validace návrhu podle oblastí vymezených v AI Aktu, která ukazuje, že systém je slučitelný s požadavky na data governance, dokumentaci, dohled, přesnost i kybernetickou bezpečnost. Omezení práce spočívají zejména v absenci reprezentativních dat pro praktické ověření návrhu. Výsledný koncept však představuje realizovatelný a přenositelný základ pro pilotní testování a dále přispívá k diskusi o bezpečném využití umělé inteligence ve státní správě. |
| Klíčová slova: | velké jazykové modely; Retrieval Augmented Classification; státní správa; Data Loss Prevention; Automatická klasifikace dokumentů |
| Název práce: | Proposal for a methodology for automatic classification of documents in public administration using large language models |
|---|---|
| Autor(ka) práce: | Kyzrová, Johana |
| Typ práce: | Diploma thesis |
| Vedoucí práce: | Umlauf, Miroslav |
| Oponenti práce: | Maryška, Miloš |
| Jazyk práce: | Česky |
| Abstrakt: | This thesis deals with the design of a system for automatic document classification in public administration and its verification according to the requirements of the European regulatory framework. The design is based on an analysis of the document repository of the Ministry of Industry and Trade and an evaluation of state-of-the-art classification methods. The motivation is the need for efficient sorting of millions of documents, which is key to preventing data leaks and the future development of intelligent services. Analysis of current approaches and market consultations have shown that modern language models provide the most suitable solution. Based on this, the Retrieval Augmented Classification method was chosen, supplemented by a zero-shot procedure for general document types. The thesis also includes validation of the design according to the areas defined in the EU AI Act, which shows that the system is compatible with the requirements for data governance, documentation, oversight, accuracy, and cybersecurity. The limitations of the work lie mainly in the absence of representative data for practical verification of the design. However, the resulting concept represents a feasible and transferable basis for pilot testing and further contributes to the discussion on the safe use of artificial intelligence in public administration. |
| Klíčová slova: | Automatic document classification; Large Language Models; Retrieval Augmented Classification; government data; Data Loss Prevention |
Informace o studiu
| Studijní program / obor: | Data a analytika pro business |
|---|---|
| Typ studijního programu: | Magisterský studijní program |
| Přidělovaná hodnost: | Ing. |
| Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
| Fakulta: | Fakulta informatiky a statistiky |
| Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
| Datum zadání práce: | 14. 11. 2025 |
|---|---|
| Datum podání práce: | 1. 12. 2025 |
| Datum obhajoby: | 22. 1. 2026 |
| Identifikátor v systému InSIS: | https://insis.vse.cz/zp/94493/podrobnosti |
Soubory ke stažení
Hlavní práce
Zveřejnění souboru odloženo na: 1. 12. 2028 Stáhnout
Zveřejnění souboru odloženo na: 1. 12. 2028 Stáhnout