Data analysis of leaked documents in investigative journalism

Thesis title: Datová analýza uniklých dokumentů v oblasti investigativní žurnalistiky
Author: Bui, Mai Phuong
Thesis type: Diplomová práce
Supervisor: Černý, Jan
Opponents: Potančok, Martin
Thesis language: Česky
Abstract:
Tato diplomová práce se zabývá analýzou a tvorbou interaktivní databáze zobrazující síť offshore firem z pěti velkých souborů uniklých dokumentů, které byly zpracované a poskytnuté veřejnosti Mezinárodním konsorciem investigativních žurnalistů (ICIJ) jako podpora procesů Open Source Intelligence (OSINT). ICIJ z těchto dat vytvořili na svém webu vlastní databázi, vyhledávání informací o jednotlivých firmách zde však probíhá formou vyhledávacího pole a výsledky se zobrazí jako seznam odkazů odpovídající vyhledávání, což může v tak velkém množství dat být nepřehledné a uživateli tak můžou některé informace uniknout. Cílem práce je vytvořit interaktivní databázi, která bude pomocí filtrů na mapě a doplňující tabulce zobrazovat všechny relevantní informace o jednotlivých firmách, a to vše v jednom okně. Práce je rozdělena na teoretickou a praktickou část. V teoretické části jsou popsány základní principy investigativní žurnalistiky, metodiky sběru, klasifikace, verifikace a ochrany dat. V praktické části je pak popsán proces přípravy a čištění dat, který je nutný pro následnou tvorbu interaktivní databáze s využitím vizualizačního nástroje Tableau a s cílem vytvořit uživatelsky přívětivý dashboard, který bude veřejně dostupný na portálu Tableau Public.
Keywords: Pandora Papers; Panama Papers; Bahamas Leaks; offshore úniky; Paradise Papers; Tableau; Open Source Intelligence; OSINT; datová analýza; investigativní žurnalistika; data; ICIJ; offshore firmy
Thesis title: Data analysis of leaked documents in investigative journalism
Author: Bui, Mai Phuong
Thesis type: Diploma thesis
Supervisor: Černý, Jan
Opponents: Potančok, Martin
Thesis language: Česky
Abstract:
This thesis concerns the analysis and creation of an interactive database showcasing a network of offshore companies based on five extensive sets of leaked documents that have been processed and made publicly available by the International Consortium of Investigative Journalists (ICIJ) in support of Open Source Intelligence (OSINT) processes. While ICIJ has developed its own database using this data, the search for information about individual companies is carried out through a search box and the results are displayed as a list of links matching the search. This can be confusing when dealing with such a large amount of data, leading users to overlook important information. The aim of this project is to create an interactive database that will display all relevant information about individual companies in one window using filters on a map and a supplementary table. The project is divided into two parts: theoretical and practical. The theoretical part outlines the fundamental principles of investigative journalism, along with methodologies for data collection, classification, verification, and protection. The practical part describes the process of data preparation and cleaning, which is essential for the subsequent creation of an interactive database using a visualization tool called Tableau. The goal is to create a user-friendly dashboard that will be publicly available on the Tableau Public portal.
Keywords: data analysis; investigative journalism; data; ICIJ; offshore companies; offshore leaks; Pandora Papers; Panama Papera; Open Source Intelligence; OSINT; Bahamas Leaks; Paradise Papers; Tableau

Information about study

Study programme: Informační systémy a technologie/Business Intelligence
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 31. 10. 2022
Date of submission: 27. 4. 2023
Date of defense: 30. 5. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/82559/podrobnosti

Files for download

    Last update: