Big Data and Ethics

Thesis title: Big Data and Ethics
Author: Novák, Richard
Thesis type: Dissertation thesis
Supervisor: Svatá, Vlasta
Opponents: Pitner, Tomáš; Hynek, Josef; Wagner, Ben
Thesis language: English
Abstract:
Big Data is a relatively new term that has so far not been viewed through the lens of applied ethics.My focus in this thesis is on the awareness of the conflicts arising between Big Data phenomenon and its issues and the relevant ethical principles. Firstly, I start with the research of other authors and an overview of Big Data and ethics, and the definitions that are generally accepted. Secondly, I continue with the description of data sources and Big Data use cases from the telecommunication industry, demonstrating what is currently feasible, that I will generalize and, furthermore, suggest a comprehensive list of twelve Big Data issues such as Privacy Intrusion, New Barriers, Business Advantage, Power of All data, New Big Brother effect, Missing Transparency, Confusion, Social Pressure, Belief in Legislation, End of Theory, Data Religion and Unawareness of our Data. Thirdly, I describe the existing regulatory framework of the Big Data area with the clarifications and some suggestions for improvement, and I also verify the awareness of the suggested twelve Big Data issues by launching an international survey. Finally, I discuss and conclude the thesis results.The survey (N=733) of university students, IT professionals and seniors from EU countries, mainly Czechia and Slovakia concluded that Big Data issues are grouped into three different and consistent clusters: hot, cold and warm (suggested by the Ward method that uses the Euclid distance between the mean and standard deviation).I found, using MANOVA Pillai’s statistical test, that clusters are significantly dependent on demography (IT Skills, Occupation and Sex). Warm clusters show interesting dependencies on the demographic category, such as the social pressure perceived important by pensioners and women compared to the underestimated importance reported by men and IT Professionals. The conclusion of the thesis is that the awareness of Big Data issues can be grouped into three consistent clusters that depend on a few demographic variables. I also conclude that there is a need for regulation frameworks to move past Big Data Ethic by Default (Law) to a priori Big Data Ethics by Design approach.
Keywords: big data issues; cluster analysis; awareness; big data ethics by design; manova; digital divide; demography
Thesis title: Velká data a etika
Author: Novák, Richard
Thesis type: Disertační práce
Supervisor: Svatá, Vlasta
Opponents: Pitner, Tomáš; Hynek, Josef; Wagner, Ben
Thesis language: English
Abstract:
Termín velká data je relativně nový a neprošel tedy dosud důkladnou diskusí v oblasti aplikované etiky.V mé disertační práci se zaměřuji hlavně na uvědomění si existence některých problémů velkých dat, které vznikají ze střetu tohoto fenoménu s dosud známými etickými principy. Disertační práce má následující strukturu. Nejprve je provedena rešerše v oblasti velkých dat a etiky. Potom, pokračuji s popisem datových zdrojů a případových studií i možného komerčního nasazení velkých dat v oboru telekomunikací. Zde se snažím ukázat co všechno je pomocí velkých dat v této oblasti možné, abych následně provedl zobecnění, které mi umožnuje navrhnout souhrnný seznam všech souvisejících problémů a rizik velkých dat. Konkrétně jde o: narušení soukromí, nové bariéry, obchodní výhody, dominance malého počtu datových korporací, efekt velkého bratra, chybějící transparence, zmatení světa, sociální tlak, víra v legislativní řešení, konec obecných teorií, nové datové náboženství a nevědomost o sběru našich vlastních dat. Následně analyzuji současný regulatorní rámec velkých dat a doplňuji svoje vlastní návrhy na zlepšení v této oblasti. Na závěr formuluji shrnutí disertační práce.Součásti disertační práce je průzkum (N=733) mezi universitními studenty, IT odborníky a seniory v EU, zejména v České republice a na Slovensku. Tento průzkum za použití Wardovy metody, založené na Euklidovy vzdálenosti střední hodnoty a směrodatné odchylky, odhalil existenci tří odlišných shluků problému velkých dat pojmenovaných jako horký, chladný a vlažný shluk.Průzkum za použití MANOVA statistické metody odhalil, že shluky jsou významně závislé na demografii, konkrétně na IT dovednostech, povolání a pohlaví. Například v horkém shluku je mnohem významnější sociální tlak na seniory a ženy než na ostatní. Závěrem disertační práce tedy je, že uvědomění problémů velkých dat lze rozdělit do tří odlišných shluků, které jsou demograficky závislé. Dalším závěrem je, že v regulatorní rámci, který dopadá na velká data, vzniká poptávka doplnit existující legislativu a právo (mandatorní a dodatečný prvek) o nový regulační prvek etiky spojený s metodikou návrhu IT systémů (Big Data Ethics by Design) aplikovanou v počáteční fázi všech IT datových projektů.
Keywords: manova; uvědomění; rizika a problémy velkých dat; shluková analýza; etika velkých dat založená na metodice návrhu IT datových systémů; demografie; digitální rozdělení

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Doktorský studijní program
Assigned degree: Ph.D.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Systems Analysis

Information on submission and defense

Date of assignment: 6. 1. 2014
Date of submission: 25. 11. 2019
Date of defense: 10. 2. 2020
Identifier in the InSIS system: https://insis.vse.cz/zp/46031/podrobnosti

Files for download

    Last update: