Anonymizace osobních údajů pomocí metod hlubokého učení

Název práce: Anonymizace osobních údajů pomocí metod hlubokého učení
Autor(ka) práce: Ondrášek, David
Typ práce: Diplomová práce
Vedoucí práce: Doležal, Josef
Oponenti práce: Mittner, Jan
Jazyk práce: Česky
Abstrakt:
Tato práce se zabývá problematikou anonymizace osobních údajů v nestrukturovaných textech, konkrétněji potom doménově specifickou detekcí a klasifikací osobních údajů v různých typech vstupních dokumentů. Cílem této diplomové práce je navrhnout a implementovat prototyp modulárního anonymizačního nástroje, který je možné jednoduše programaticky upravit pro klasifikaci jmenných entit v různých doménově specifických typech vstupních dokumentů ve formátu nestrukturovaného textu. Při implementaci anonymizačního nástroje je využito technik hlubokého učení a dojde pomocí frameworku spaCy k vytrénování vlastního multilingvního Named Entity Recognition modelu, který je následně integrován do samotného anonymizačního nástroje, vyvinutého pomocí SDK Presidio. Nástroj je upraven pro konkrétní doménově specifickou aplikaci klasifikace osobních údajů v dokumentech nahrávaných do Veřejného registru smluv.
Klíčová slova: Hluboké učení; Natural Language Processing; Ochrana osobních údajů; Named Entity Recognition; spaCy; Presidio; Multilingvní modely
Název práce: PII anonymization with deep learning techniques
Autor(ka) práce: Ondrášek, David
Typ práce: Diploma thesis
Vedoucí práce: Doležal, Josef
Oponenti práce: Mittner, Jan
Jazyk práce: Česky
Abstrakt:
This diploma thesis deals with a PII (Personally identifiable information) protection in unstructured texts, specifically domain-specific detection and classification of PIIs in various types of input documents. The main goal of this diploma thesis is to design and implement the functional prototype of modular PII anonymizer tool, which can be easily programmatically adjusted to classify named entities in various types of input documents. The PII anonymizer tool utilizes the strength of Deep Learning techniques. Using the spaCy framework, new custom Entity Named Recognition model is trained and then integrated into the PII anonymizer tool, which is built with help of the Presidio SDK. PII anonymizer tool is then adjusted for a unique, domain-specific task, which is a PII classification within the documents subjecting to obligatory upload to „Veřejný registr smluv“ (Public registry of contracts).
Klíčová slova: Deep Learning; Natural Langugage Processing; PII protection; Named Entity Recognition; spaCy; Multilingual models; Presidio

Informace o studiu

Studijní program / obor: Informační systémy a technologie/Vývoj informačních systémů
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 5. 11. 2021
Datum podání práce: 27. 6. 2022
Datum obhajoby: 7. 10. 2022
Identifikátor v systému InSIS: https://insis.vse.cz/zp/78625/podrobnosti

Soubory ke stažení

    Poslední aktualizace: