Data Warehouse Management and MWF Optimization

Thesis title: Řízení datového skladu a optimalizace MWF
Author: Matoušková, Barbora
Thesis type: Diplomová práce
Supervisor: Maryška, Miloš
Opponents: Faina, Michal
Thesis language: Česky
Diplomová práce se zabývá datovým skladem ve velké bankovní instituci, a to zejména z pohledu řízení jeho provozu. Pro rychlé pochopení principů datového skladu zahrnuje práce jeho popis z hlediska datové architektury, transformačních procesů a způsobu prezentování dat uživatelům. Dále jsou v práci uvedeny a charakterizovány systémy, které jsou v datovém skladu využívány jak pro byznys data, tak pro metadatové účely. V práci jsou popsány aktivity prováděné při řízení skladu a identifikována slabá místa pro potenciální zlepšení. Součástí práce je i projekt optimalizace plánovacího mechanismu (Master Workflow) pro spouštění transformačních procesů, který zahrnuje snižování zátěže databázového systému Teradata metadatovými procesy. Hlavním cílem práce je srozumitelně popsat prostředí datového skladu, jehož pochopení jako celku je důležité jak pro pracovníky zodpovědné za chod a fungování skladu, tak pro vývojáře, kteří díky tomu mohou přizpůsobit své vývojové aktivity, dodávat kvalitnější řešení a tím zkvalitnit nasazování změn do produkčního prostředí. Tento cíl je v práci dosažen stručným popisem datového skladu (zejména popisem datové architektury, transformačních procesů, provozních postupů a nástrojů používaných při nasazování změn do produkčního prostředí). Dalším cílem je poskytnout zpětnou vazbu na provozní činnosti z pohledu pracovníka oddělení provozu datového skladu a tím pomoci k jejich odstranění. Posledním cílem práce je vylepšení plánovacího mechanismu zodpovědného za chod a evidenci transformačních procesů. Tohoto cíle je dosaženo projektem, který tuto problematiku řeší a na kterém jsem pracovala. V práci je popsán původní stav, provedené změny, nový stav po optimalizaci a posouzení úspěšnosti projektu. Mezi přínosy práce patří snadnější a rychlejší pochopení datového skladu jako celku a způsobu řízení transformačních procesů ať už pro nové pracovníky provozu nebo pro vývojáře (což s sebou přináší potenciální zlepšení dodávek). Dalšími přínosy jsou možnost odstranění slabých míst provozu a optimalizace plánovacího systému (došlo jak k jeho standardizaci (očištění), tak ke snížení zátěže databázového systému Teradata). Vlastním přínosem k řešenému tématu je kromě srozumitelného a užitečného úvodu do datového skladu také identifikace jeho slabých míst, návrhy na zlepšení a samotný projekt optimalizace, jež zabral cca 17 MD. Práce je strukturována do kapitol dle tématických celků: úvodní informace o diplomové práci, teoretický základ (komponenty BI, současný stav řešené problematiky), charakteristika hlavních nástrojů využívaných v datovém skladu, popis prostředí datového skladu, popis provozních aktivit včetně identifikace slabých míst a na konec projekt optimalizace Master Workflow. V poslední kapitole je závěrečné shrnutí práce
Keywords: Load; Transform; Informatica PowerCenter; Teradata; Datový sklad; Optimalizace; Extract; BI; ETL; DWH; Business Intelligence
This thesis focuses on the data warehouse of an extensive bank intitution from its operational management point of view (for the main part). To grasp the fast overview of the data warehouse the thesis includes the description of its data architecture, transformation processes and the way of presenting data to its users. Besides that the description of systems used for both the business data and for the metadata purposses is also included in this thesis. The thesis also covers operational activities including the identification of weak areas and their improvements. Another part of the thesis is represented by the project of optimization of a scheduling mechanism (Master Workflow) for running transformation processes, that helps to minimalize the metadata load of the Teradata database system. The main goal of this thesis is to describe the environment of the data warehouse in an understandable way. It's critical to understand the environment for both, the operational management personnel and for developers, that can supply the warehouse with higher quality solutions and ease the deployment of new deliveries into the production environment. This goal is achieved by the description of the data warehouse (mainly the description of its data architecture, transformation processes, operational activities and tools used to deploy changes into the production environment). Another goal is to give a feedback on the operational activities from the operational personnel point of view. This helps identify weak spots and can lead to its elimination. The last goal is to improve the scheduling mechanism that controls and runs all transformation processes. This goal is achieved by a project. The thesis describes the starting state, implemented changes, final state and the consideration whether the project was successful or not. The thesis brings several contributions: easier understanding of the data warehouse and the way of managing ETL processes -- for the operational management personnel and developers, which can bring the improvement of new solutions. The possibility of elimination of weak areas in the operational activities. And thanks to the project described there are two changes -- standardization and the metadata load of Teradata decreased. My own contribution to this issue is, besides the useful introduction to the data warehouse, the identification of the weak areas, suggested improvements and also the project of optimization Master Workflow which took about 17 MD. The thesis is devided into chapters based on the topics described: introductory information, theoretical base, characteristics of the main systems, the description of the data warehouse, the description of operational activities including the identification of weak areas, and at the end there is the project of optimization of Master Workflow. In the last chapter there is the final conclusion of the entire thesis.
Keywords: Load; Transform; ETL; Optimization; Extract; Informatica PowerCenter; Teradata; Data Warehouse; DWH; Business Intelligence; BI

Study programme: Aplikovaná informatika/Informační systémy a technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Date of assignment: 25. 1. 2012
Date of submission: 30. 6. 2012
Date of defense: 27. 8. 2012
