Proposal for a methodology for automatic classification of documents in public administration using large language models
| Thesis title: | Návrh metodiky pro automatickou klasifikaci dokumentů ve veřejné správě s využitím velkých jazykových modelů |
|---|---|
| Author: | Kyzrová, Johana |
| Thesis type: | Diplomová práce |
| Supervisor: | Umlauf, Miroslav |
| Opponents: | Maryška, Miloš |
| Thesis language: | Česky |
| Abstract: | Tato diplomová práce se zabývá návrhem systému pro automatickou klasifikaci dokumentů ve veřejné správě a jeho ověřením podle požadavků evropského regulatorního rámce. Návrh vychází z analýzy dokumentového úložiště Ministerstva průmyslu a obchodu a zhodnocení současných metod klasifikace. Motivací je potřeba efektivního třídění milionů dokumentů, což je klíčové pro prevenci úniku dat i budoucí rozvoj inteligentních služeb. Analýza současných přístupů i konzultace s trhem ukázaly, že moderní jazykové modely poskytují nejvhodnější řešení. Na základě toho byla zvolena metoda Retrieval Augmented Classification, doplněná o zero-shot postup pro obecné typy dokumentů. Součástí práce je také validace návrhu podle oblastí vymezených v AI Aktu, která ukazuje, že systém je slučitelný s požadavky na data governance, dokumentaci, dohled, přesnost i kybernetickou bezpečnost. Omezení práce spočívají zejména v absenci reprezentativních dat pro praktické ověření návrhu. Výsledný koncept však představuje realizovatelný a přenositelný základ pro pilotní testování a dále přispívá k diskusi o bezpečném využití umělé inteligence ve státní správě. |
| Keywords: | velké jazykové modely; Retrieval Augmented Classification; státní správa; Data Loss Prevention; Automatická klasifikace dokumentů |
| Thesis title: | Proposal for a methodology for automatic classification of documents in public administration using large language models |
|---|---|
| Author: | Kyzrová, Johana |
| Thesis type: | Diploma thesis |
| Supervisor: | Umlauf, Miroslav |
| Opponents: | Maryška, Miloš |
| Thesis language: | Česky |
| Abstract: | This thesis deals with the design of a system for automatic document classification in public administration and its verification according to the requirements of the European regulatory framework. The design is based on an analysis of the document repository of the Ministry of Industry and Trade and an evaluation of state-of-the-art classification methods. The motivation is the need for efficient sorting of millions of documents, which is key to preventing data leaks and the future development of intelligent services. Analysis of current approaches and market consultations have shown that modern language models provide the most suitable solution. Based on this, the Retrieval Augmented Classification method was chosen, supplemented by a zero-shot procedure for general document types. The thesis also includes validation of the design according to the areas defined in the EU AI Act, which shows that the system is compatible with the requirements for data governance, documentation, oversight, accuracy, and cybersecurity. The limitations of the work lie mainly in the absence of representative data for practical verification of the design. However, the resulting concept represents a feasible and transferable basis for pilot testing and further contributes to the discussion on the safe use of artificial intelligence in public administration. |
| Keywords: | Automatic document classification; Large Language Models; Retrieval Augmented Classification; government data; Data Loss Prevention |
Information about study
| Study programme: | Data a analytika pro business |
|---|---|
| Type of study programme: | Magisterský studijní program |
| Assigned degree: | Ing. |
| Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
| Faculty: | Faculty of Informatics and Statistics |
| Department: | Department of Information Technologies |
Information on submission and defense
| Date of assignment: | 14. 11. 2025 |
|---|---|
| Date of submission: | 1. 12. 2025 |
| Date of defense: | 22. 1. 2026 |
| Identifier in the InSIS system: | https://insis.vse.cz/zp/94493/podrobnosti |
Files for download
Main text
File publication postponed to: 1. 12. 2028 Download
File publication postponed to: 1. 12. 2028 Download