Overenie možnosti využitia algoritmov strojového učenia pre detekciu osobných dát

Název práce: Overenie možnosti využitia algoritmov strojového učenia pre detekciu osobných dát
Autor(ka) práce: Šťastná, Lenka
Typ práce: Diplomová práce
Vedoucí práce: Máša, Petr
Oponenti práce: Pejčoch, David
Jazyk práce: Slovensky
Abstrakt:
Aby spoločnosti zaistili súlad s normami GDPR a zabránili zneužitiu osobných údajov svojich klientov, je potrebné tieto dáta v prvom kroku detegovať v dátových úložiskách a následne aplikovať konkrétne riešenia ich ochrany. Hlavným cieľom diplomovej práce je posúdiť prínosy a potenciál detekcie osobných dát v relačných databázach pomocou algoritmov strojového učenia. V prvej časti práca predstavuje rešerš zdrojov pojednávajúcich o téme ochrany osobných dát, metódach ich detekcie a analyzuje trh komerčných nástrojov. Následne navrhuje prístup využívajúci algoritmy strojového učenia a aplikuje ho na reálnych dátach. Jedná sa o tvorbu binárnych klasifikačných modelov využívajúcich algoritmy Logistickej regresie a CatBoost. Skúmaný je tiež samostatný vplyv pomenovania polí a obsahu polí na úspešnosť detekcie. Overovanie prínosov aplikácie strojového učenia pre účely detekcie pozostáva v prvom kroku z definovania defaultného modelu, ktorý metódu strojového učenia nevyužíva. V druhom kroku je analyzovaný prínos aplikácie strojového učenia, kedy sú vytvorené modely porovnávané s defaultom. Porovnanie prístupov sa odohráva na úrovni vyhodnotenia metrík accuracy, recall, F1-score a AUC, kde finálne navrhnuté riešenie prináša vyššiu úspešnosť ako v prípade defaultného modelu a to na úrovni všetkých uvedených metrík, pre vyvážený aj nevyvážený dataset. Záver je venovaný diskusii problémov a potenciálneho rozvoja riešenia.
Klíčová slova: citlivé dáta; detekcia citlivých dát; relačné databázy; strojové učenie
Název práce: Overenie možnosti využitia algoritmov strojového učenia pre detekciu osobných dát
Autor(ka) práce: Šťastná, Lenka
Typ práce: Diplomová práce
Vedoucí práce: Máša, Petr
Oponenti práce: Pejčoch, David
Jazyk práce: Slovensky
Abstrakt:
Aby společnosti zajistily soulad s normami GDPR a zabránily zneužití osobních údajů svých klientů, je třeba tato data v prvním kroku detekovat v datových úložištích a následně aplikovat konkrétní řešení jejich ochrany. Hlavním cílem diplomové práce je posoudit přínosy a potenciál detekce osobních dat v relačních databázích pomocí algoritmů strojového učení. V první části práce představuje rešerši zdrojů pojednávajících o tématu ochrany osobních dat, metodách jejich detekce a analyzuje trh komerčních nástrojů. Následně navrhuje přístup využívající algoritmy strojového učení a aplikuje jej na reálných datech. Jedná se o tvorbu binárních klasifikačních modelů využívajících algoritmy Logistické regrese a CatBoost. Zkoumán je také samostatný vliv pojmenování polí a obsahu polí na úspěšnost detekce. Ověřování přínosů aplikace strojového učení pro účely detekce sestává v prvním kroku z definování defaultního modelu, který metodu strojového učení nevyužívá. Ve druhém kroku je analyzován přínos aplikace strojového učení, kdy jsou vytvořené modely porovnávány s defaultem. Porovnání přístupů se odehrává na úrovni vyhodnocení metrik accuracy, recall, F1-score a AUC, kde finálně navržené řešení přináší vyšší úspěšnost než v případě defaultního modelu a to na úrovni všech uvedených metrik, pro vyvážený i nevyvážený dataset. Závěr je věnován diskusi problémů a potenciálního rozvoje řešení.
Klíčová slova: osobní údaje; detekce osobních údajů; relační databáze; strojové učení
Název práce: Verification of the possibility of using machine learning algorithms for detection of personal data
Autor(ka) práce: Šťastná, Lenka
Typ práce: Diploma thesis
Vedoucí práce: Máša, Petr
Oponenti práce: Pejčoch, David
Jazyk práce: Slovensky
Abstrakt:
In order for companies to ensure compliance with GDPR standards and prevent the misuse of their clients' personal data, in the first step it is necessary to detect this type of data in data repositories and then apply specific solutions to protect them. The main goal of the diploma thesis is to assess the benefits and potential of personal data detection in relational databases using machine learning algorithms. In the first part, the thesis presents a research of resources dealing with the topic of personal data protection, methods of their detection and analyses the market of commercial tools. It follows with an approach, whose proposal uses machine learning algorithms and it’s application to real data. It deals with creation of binary classification models using Logistic Regression and CatBoost algorithms. The separate influence of field naming and field content on detection success is also investigated. Verifying the benefits of a machine learning application for detection purposes consists in the first step of defining a default model that does not use the machine learning method. The benefits of the machine learning application is analysed in the second step, when the created models are compared with the default. The comparison of approaches takes place at the level of evaluation of metrics accuracy, recall, F1-score and AUC, where the final proposed solution brings higher success than in the case of the default model at the level of all metrics for balanced and even unbalanced dataset. The conclusion is devoted to the discussion of problems and potential further development of the solution.
Klíčová slova: personal data; personal data detection; relational databases; machine learning

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační systémy a technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 30. 11. 2021
Datum podání práce: 30. 6. 2022
Datum obhajoby: 5. 10. 2022
Identifikátor v systému InSIS: https://insis.vse.cz/zp/78908/podrobnosti

Soubory ke stažení

    Poslední aktualizace: