PII anonymization with deep learning techniques
Thesis title: | Anonymizace osobních údajů pomocí metod hlubokého učení |
---|---|
Author: | Ondrášek, David |
Thesis type: | Diplomová práce |
Supervisor: | Doležal, Josef |
Opponents: | Mittner, Jan |
Thesis language: | Česky |
Abstract: | Tato práce se zabývá problematikou anonymizace osobních údajů v nestrukturovaných textech, konkrétněji potom doménově specifickou detekcí a klasifikací osobních údajů v různých typech vstupních dokumentů. Cílem této diplomové práce je navrhnout a implementovat prototyp modulárního anonymizačního nástroje, který je možné jednoduše programaticky upravit pro klasifikaci jmenných entit v různých doménově specifických typech vstupních dokumentů ve formátu nestrukturovaného textu. Při implementaci anonymizačního nástroje je využito technik hlubokého učení a dojde pomocí frameworku spaCy k vytrénování vlastního multilingvního Named Entity Recognition modelu, který je následně integrován do samotného anonymizačního nástroje, vyvinutého pomocí SDK Presidio. Nástroj je upraven pro konkrétní doménově specifickou aplikaci klasifikace osobních údajů v dokumentech nahrávaných do Veřejného registru smluv. |
Keywords: | Hluboké učení; Natural Language Processing; Ochrana osobních údajů; Named Entity Recognition; spaCy; Presidio; Multilingvní modely |
Thesis title: | PII anonymization with deep learning techniques |
---|---|
Author: | Ondrášek, David |
Thesis type: | Diploma thesis |
Supervisor: | Doležal, Josef |
Opponents: | Mittner, Jan |
Thesis language: | Česky |
Abstract: | This diploma thesis deals with a PII (Personally identifiable information) protection in unstructured texts, specifically domain-specific detection and classification of PIIs in various types of input documents. The main goal of this diploma thesis is to design and implement the functional prototype of modular PII anonymizer tool, which can be easily programmatically adjusted to classify named entities in various types of input documents. The PII anonymizer tool utilizes the strength of Deep Learning techniques. Using the spaCy framework, new custom Entity Named Recognition model is trained and then integrated into the PII anonymizer tool, which is built with help of the Presidio SDK. PII anonymizer tool is then adjusted for a unique, domain-specific task, which is a PII classification within the documents subjecting to obligatory upload to „Veřejný registr smluv“ (Public registry of contracts). |
Keywords: | Deep Learning; Natural Langugage Processing; PII protection; Named Entity Recognition; spaCy; Multilingual models; Presidio |
Information about study
Study programme: | Informační systémy a technologie/Vývoj informačních systémů |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information Technologies |
Information on submission and defense
Date of assignment: | 5. 11. 2021 |
---|---|
Date of submission: | 27. 6. 2022 |
Date of defense: | 7. 10. 2022 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/78625/podrobnosti |