Anonymizace osobních údajů pomocí metod hlubokého učení
Název práce: | Anonymizace osobních údajů pomocí metod hlubokého učení |
---|---|
Autor(ka) práce: | Ondrášek, David |
Typ práce: | Diplomová práce |
Vedoucí práce: | Doležal, Josef |
Oponenti práce: | Mittner, Jan |
Jazyk práce: | Česky |
Abstrakt: | Tato práce se zabývá problematikou anonymizace osobních údajů v nestrukturovaných textech, konkrétněji potom doménově specifickou detekcí a klasifikací osobních údajů v různých typech vstupních dokumentů. Cílem této diplomové práce je navrhnout a implementovat prototyp modulárního anonymizačního nástroje, který je možné jednoduše programaticky upravit pro klasifikaci jmenných entit v různých doménově specifických typech vstupních dokumentů ve formátu nestrukturovaného textu. Při implementaci anonymizačního nástroje je využito technik hlubokého učení a dojde pomocí frameworku spaCy k vytrénování vlastního multilingvního Named Entity Recognition modelu, který je následně integrován do samotného anonymizačního nástroje, vyvinutého pomocí SDK Presidio. Nástroj je upraven pro konkrétní doménově specifickou aplikaci klasifikace osobních údajů v dokumentech nahrávaných do Veřejného registru smluv. |
Klíčová slova: | Hluboké učení; Natural Language Processing; Ochrana osobních údajů; Named Entity Recognition; spaCy; Presidio; Multilingvní modely |
Název práce: | PII anonymization with deep learning techniques |
---|---|
Autor(ka) práce: | Ondrášek, David |
Typ práce: | Diploma thesis |
Vedoucí práce: | Doležal, Josef |
Oponenti práce: | Mittner, Jan |
Jazyk práce: | Česky |
Abstrakt: | This diploma thesis deals with a PII (Personally identifiable information) protection in unstructured texts, specifically domain-specific detection and classification of PIIs in various types of input documents. The main goal of this diploma thesis is to design and implement the functional prototype of modular PII anonymizer tool, which can be easily programmatically adjusted to classify named entities in various types of input documents. The PII anonymizer tool utilizes the strength of Deep Learning techniques. Using the spaCy framework, new custom Entity Named Recognition model is trained and then integrated into the PII anonymizer tool, which is built with help of the Presidio SDK. PII anonymizer tool is then adjusted for a unique, domain-specific task, which is a PII classification within the documents subjecting to obligatory upload to „Veřejný registr smluv“ (Public registry of contracts). |
Klíčová slova: | Deep Learning; Natural Langugage Processing; PII protection; Named Entity Recognition; spaCy; Multilingual models; Presidio |
Informace o studiu
Studijní program / obor: | Informační systémy a technologie/Vývoj informačních systémů |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
Datum zadání práce: | 5. 11. 2021 |
---|---|
Datum podání práce: | 27. 6. 2022 |
Datum obhajoby: | 7. 10. 2022 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/78625/podrobnosti |