Crime open data deanonymization

Thesis title: Deanonymizace otevřených dat o kriminalitě
Author: Fuka, Dominik
Thesis type: Bakalářská práce
Supervisor: Kučera, Jan
Opponents: Chlapek, Dušan
Thesis language: Česky
Abstract:
Práce se zabývá deanonymizací otevřených dat o kriminalitě. K publikování otevřených dat přistupuje stále více vládních organizací. Data jsou před zveřejněním anonymizována, aby nedocházelo k úniku citlivých informací. Tento proces lze však různými metodami obrátit a získat tak zpětně údaje o subjektu dat. Na základě této problematiky byly stanoveny cíle této práce. Prvním z nich bylo zdokumentování současného stavu publikace otevřených dat o kriminalitě v Austrálii, Evropské Unii, Kanadě, Novém Zélandu, Spojeném království Velké Británie a Severního Irska a Spojených státech amerických. Ke splnění tohoto cíle byla využita rešerše a analýza dostupných zdrojů. Druhým cílem bylo zanalyzovat různé způsoby a metody pro deanonymizaci dat, k čemuž bylo využito dostupné literatury a její následná analýza. Posledním cílem bylo otestování deanonymizace na reálné datové sadě. Nejprve byla vybrána vhodná datová sada – data o trestné činnosti v oblasti Avon a Somerset (Velká Británie) z března 2021 publikována Police UK – a následně související zdroje pro nalezení možných subjektů dat o trestných činech – Bristol Live a Somerset Live. V diskusi byl probrán rozdíl mezi manuálním a automatizovaným přístupem k deanonymizaci a výsledky byly zasazeny do kontextu současného stavu vědění. Přínosy práce spočívají v poskytnutí náhledu na publikování otevřených dat o kriminalitě ve význačných územních celcích a státech, dále pak práce poskytuje vybrané metody deanonymizace, a nakonec i názornou ukázku reidentifikace na reálné datové sadě.
Keywords: otevřená data; deanonymizace; kriminalita; otevřená data o kriminalitě
Thesis title: Crime open data deanonymization
Author: Fuka, Dominik
Thesis type: Bachelor thesis
Supervisor: Kučera, Jan
Opponents: Chlapek, Dušan
Thesis language: Česky
Abstract:
The thesis deals with the topic of crime open data deanonymization. Many government organizations publish open data or are at least considering it. Before publication, the data is anonymized to prevent sensitive information leaks. Nevertheless, various methods can reverse this process and recover sensitive information about the data owner. Objectives of this paper have been set regarding this issue. The first objective was to document the current state of crime open data publication in Australia, the European Union, Canada, New Zealand, the United Kingdom of Great Britain and Northern Ireland, and the United States of America. Research and analysis of available sources were used to fulfill this objective. The second objective was to analyze the different ways and methods for data deanonymization. Analysis of available literature was used to meet this objective. The final objective was to perform deanonymization on a real-world dataset. A suitable dataset was selected, which comes from the Avon and Somerset area in the United Kingdom and covers crime data from March 2021, as well as related sources to find the possible owners of the crime data - Bristol Live and Somerset Live. The discussion at the end of the paper goes into the difference between manual and automated approaches to deanonymization. The results were also put in the context of the current state of knowledge. The contributions of this thesis are to provide insight into the crime open data publications around the world, describe a few selected methods of deanonymization, and finally, give an example of re-identification done on a real-world dataset.
Keywords: open data; deanonymization; re-identification; criminality; crime open data

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 12. 9. 2022
Date of submission: 8. 5. 2023
Date of defense: 22. 6. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/81450/podrobnosti

Files for download

    Last update: