Diplomová práce navrhuje syntetický rámec data governance pro etické AI systémy, který propojuje datovou kvalitu, mitigaci biasu, ochranu soukromí, transparentnost a odpovědnost. Teoretická část systematizuje základní pojmy a komparativně analyzuje čtyři rámce a standardy (DAMA-DMBOK, GDPR, NIST AI RMF a EU AI Act). Na tomto základě je formulován AI-DG Framework s pěti pilíři. Praktická část má podobu opakovaného intervenčního vyhodnocení pěti podmínek na datasetu UCI Adult Census Income ve 30 opakováních (seeds 42–71) s logistickou regresí a random forest. Kombinovaná pipeline dosáhla k-anonymity k = 5 a přibližně 97,5% redukce počtu kombinací kvazi-identifikátorů na trénovacích datech, zatímco reweighing přinesl nejsilnější zlepšení fairness pro pohlaví u logistické regrese (disparate impact vzrostl z baseline 0,282 na 0,608, avšak nedosáhl prahu 0,8). Kombinovaná pipeline však nepřinesla nejlepší predikční výkon a je vhodné ji číst jako jednu kompromisní konfiguraci v rámci zvolených metrik fairness a privacy, nikoli jako univerzálně nejlepší řešení. Narativ trade-offu mezi governance a výkonem přitom platí selektivně: u reweighingu a kombinované pipeline výkon mírně klesá, zatímco samotná privacy intervence výkon naopak statisticky významně zlepšila. Výsledky proto slouží jako ilustrace trade-offů vybraných intervencí na jednom veřejném datasetu v rámci vlastního repeatedholdout protokolu, nikoli jako obecná validace celého rámce. Hlavním přínosem práce je návrh integrativního rámce a jeho transparentní empirická konfrontace, která ukazuje jak potenciál, tak limity datových intervencí.
Klíčová slova:
data governance; umělá inteligence; AI; bias; etika; ochrana soukromí
Název práce:
Principles of Data Governance for Ethical AI Systems
Autor(ka) práce:
Perger, Marko
Typ práce:
Diploma thesis
Vedoucí práce:
Potančok, Martin
Oponenti práce:
Černý, Jan
Jazyk práce:
Česky
Abstrakt:
This thesis proposes a synthetic data governance framework for ethical AI systems that connects data quality, bias mitigation, privacy protection, transparency, and accountability. The theoretical part systematizes the core concepts and comparatively analyzes four frameworks and standards (DAMA-DMBOK, GDPR, NIST AI RMF, and the EU AI Act). On that basis, the five-pillar AI-DG Framework is formulated. The practical part uses a repeated additive intervention design with five conditions on the UCI Adult Census Income dataset across 30 repetitions (seeds 42–71) using logistic regression and random forest. The combined pipeline reached k-anonymity k = 5 and about a 97.5% reduction in quasi-identifier combinations on the training data, while reweighing produced the strongest improvement in sex fairness for logistic regression (disparate impact rose from a baseline of 0.282 to 0.608, yet remained below the 0.8 threshold). However, the combined pipeline did not achieve the best predictive performance and should be interpreted as one compromise configuration under the chosen fairness and privacy metrics rather than as a universally optimal solution. The trade-off narrative holds selectively: reweighing and the combined pipeline slightly reduced performance, whereas the privacy-only condition actually improved it with statistical significance. The findings therefore serve as an illustration of selected intervention trade-offs on one public dataset under a custom repeated-holdout protocol, not as a general validation of the whole framework. The main contribution is the design of an integrative AI-DG Framework and its transparent empirical confrontation, demonstrating both the potential and the limits of data-layer interventions.
Klíčová slova:
data governance; privacy protection; artificial intelligence; bias; AI; ethics
Informace o studiu
Studijní program / obor:
Aplikovaná datová analytika a umělá inteligence/Datová analytika v marketingu a e-commerce