Návrh metodiky pro automatickou klasifikaci dokumentů ve veřejné správě s využitím velkých jazykových modelů

Název práce: Návrh metodiky pro automatickou klasifikaci dokumentů ve veřejné správě s využitím velkých jazykových modelů
Autor(ka) práce: Kyzrová, Johana
Typ práce: Diplomová práce
Vedoucí práce: Umlauf, Miroslav
Oponenti práce: Maryška, Miloš
Jazyk práce: Česky
Abstrakt:
Tato diplomová práce se zabývá návrhem systému pro automatickou klasifikaci dokumentů ve veřejné správě a jeho ověřením podle požadavků evropského regulatorního rámce. Návrh vychází z analýzy dokumentového úložiště Ministerstva průmyslu a obchodu a zhodnocení současných metod klasifikace. Motivací je potřeba efektivního třídění milionů dokumentů, což je klíčové pro prevenci úniku dat i budoucí rozvoj inteligentních služeb. Analýza současných přístupů i konzultace s trhem ukázaly, že moderní jazykové modely poskytují nejvhodnější řešení. Na základě toho byla zvolena metoda Retrieval Augmented Classification, doplněná o zero-shot postup pro obecné typy dokumentů. Součástí práce je také validace návrhu podle oblastí vymezených v AI Aktu, která ukazuje, že systém je slučitelný s požadavky na data governance, dokumentaci, dohled, přesnost i kybernetickou bezpečnost. Omezení práce spočívají zejména v absenci reprezentativních dat pro praktické ověření návrhu. Výsledný koncept však představuje realizovatelný a přenositelný základ pro pilotní testování a dále přispívá k diskusi o bezpečném využití umělé inteligence ve státní správě.
Klíčová slova: velké jazykové modely; Retrieval Augmented Classification; státní správa; Data Loss Prevention; Automatická klasifikace dokumentů
Název práce: Proposal for a methodology for automatic classification of documents in public administration using large language models
Autor(ka) práce: Kyzrová, Johana
Typ práce: Diploma thesis
Vedoucí práce: Umlauf, Miroslav
Oponenti práce: Maryška, Miloš
Jazyk práce: Česky
Abstrakt:
This thesis deals with the design of a system for automatic document classification in public administration and its verification according to the requirements of the European regulatory framework. The design is based on an analysis of the document repository of the Ministry of Industry and Trade and an evaluation of state-of-the-art classification methods. The motivation is the need for efficient sorting of millions of documents, which is key to preventing data leaks and the future development of intelligent services. Analysis of current approaches and market consultations have shown that modern language models provide the most suitable solution. Based on this, the Retrieval Augmented Classification method was chosen, supplemented by a zero-shot procedure for general document types. The thesis also includes validation of the design according to the areas defined in the EU AI Act, which shows that the system is compatible with the requirements for data governance, documentation, oversight, accuracy, and cybersecurity. The limitations of the work lie mainly in the absence of representative data for practical verification of the design. However, the resulting concept represents a feasible and transferable basis for pilot testing and further contributes to the discussion on the safe use of artificial intelligence in public administration.
Klíčová slova: Automatic document classification; Large Language Models; Retrieval Augmented Classification; government data; Data Loss Prevention

Informace o studiu

Studijní program / obor: Data a analytika pro business
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 14. 11. 2025
Datum podání práce: 1. 12. 2025
Datum obhajoby: 22. 1. 2026
Identifikátor v systému InSIS: https://insis.vse.cz/zp/94493/podrobnosti

Soubory ke stažení

Hlavní práce
Zveřejnění souboru odloženo na: 1. 12. 2028
Stáhnout
    Poslední aktualizace: