PII anonymization with deep learning techniques

Thesis title: Anonymizace osobních údajů pomocí metod hlubokého učení
Author: Ondrášek, David
Thesis type: Diplomová práce
Supervisor: Doležal, Josef
Opponents: Mittner, Jan
Thesis language: Česky
Abstract:
Tato práce se zabývá problematikou anonymizace osobních údajů v nestrukturovaných textech, konkrétněji potom doménově specifickou detekcí a klasifikací osobních údajů v různých typech vstupních dokumentů. Cílem této diplomové práce je navrhnout a implementovat prototyp modulárního anonymizačního nástroje, který je možné jednoduše programaticky upravit pro klasifikaci jmenných entit v různých doménově specifických typech vstupních dokumentů ve formátu nestrukturovaného textu. Při implementaci anonymizačního nástroje je využito technik hlubokého učení a dojde pomocí frameworku spaCy k vytrénování vlastního multilingvního Named Entity Recognition modelu, který je následně integrován do samotného anonymizačního nástroje, vyvinutého pomocí SDK Presidio. Nástroj je upraven pro konkrétní doménově specifickou aplikaci klasifikace osobních údajů v dokumentech nahrávaných do Veřejného registru smluv.
Keywords: Hluboké učení; Natural Language Processing; Ochrana osobních údajů; Named Entity Recognition; spaCy; Presidio; Multilingvní modely
Thesis title: PII anonymization with deep learning techniques
Author: Ondrášek, David
Thesis type: Diploma thesis
Supervisor: Doležal, Josef
Opponents: Mittner, Jan
Thesis language: Česky
Abstract:
This diploma thesis deals with a PII (Personally identifiable information) protection in unstructured texts, specifically domain-specific detection and classification of PIIs in various types of input documents. The main goal of this diploma thesis is to design and implement the functional prototype of modular PII anonymizer tool, which can be easily programmatically adjusted to classify named entities in various types of input documents. The PII anonymizer tool utilizes the strength of Deep Learning techniques. Using the spaCy framework, new custom Entity Named Recognition model is trained and then integrated into the PII anonymizer tool, which is built with help of the Presidio SDK. PII anonymizer tool is then adjusted for a unique, domain-specific task, which is a PII classification within the documents subjecting to obligatory upload to „Veřejný registr smluv“ (Public registry of contracts).
Keywords: Deep Learning; Natural Langugage Processing; PII protection; Named Entity Recognition; spaCy; Multilingual models; Presidio

Information about study

Study programme: Informační systémy a technologie/Vývoj informačních systémů
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 5. 11. 2021
Date of submission: 27. 6. 2022
Date of defense: 7. 10. 2022
Identifier in the InSIS system: https://insis.vse.cz/zp/78625/podrobnosti

Files for download

    Last update: