ETL process optimization

Thesis title: Optimalizace ETL procesů
Author: Žák, Vítězslav
Thesis type: Diplomová práce
Supervisor: Novotný, Ota
Opponents: Maryška, Miloš
Thesis language: Česky
Abstract:
Každý datový sklad se v určitém bodě svého životního cyklu dostane do stavu, ve kterém se délka ať už pravidelného nebo mimořádného zpracování pomalu přibližuje přípustné hranici. Sebemenší prodleva v běhu ETL procesů znamená obtížně smazatelnou ztrátu a čím dál častěji dochází ke zpoždění dodávek dat uživatelům. Dříve, než situace přeroste v mnohem větší problém, je třeba na ní začít reagovat. Tato diplomová práce se zabývá možnými způsoby řešení tohoto problému- optimalizací výkonu ETL. Jejím hlavním cílem je návrh sady doporučení pro optimalizaci ETL procesů, její prezentace na příkladech a doplnění rad a postřehů získaných aplikací v praxi. Díky tomu čtenář získá ucelenou představu o průběhu skutečného projektu optimalizace ETL. Dozví se, jak postupovat v jeho jednotlivých fázích, čeho se vyvarovat a jak snížit na minimum míru rizika vzniku chyby. Vedle toho se zde lze dočíst o prevenci snižování výkonu ETL, o kritických faktorech návrhu ETL procesu. Jistým omezením obsahu této práce je její zaměření výhradně na databázový systém firmy Oracle, ačkoli navržené postupy jsou z větší části popisovány z obecného hlediska. Stejně tak tématem tohoto textu není optimalizace hardware. První kapitoly práce se věnují popisu problematiky a teoretických poznatků nezbytných pro čtení hlavní části práce. Rozebírají také podobně zaměřenou existující literaturu. Následující části práce se již věnují stěžejnímu tématu. Popisují sadu navržených postupů a doporučení k optimalizaci ETL procesů včetně testování a vyhodnocení výsledků projektu. Zaměřují se především na oblasti synchronizace ETL procesů a optimalizace SQL kódu. Veškeré metody jsou prezentovány na příkladech z autorem implementovaného reálného projektu, v rámci kterého byly použity.
Keywords: optimalizace; transformace; ETL; Oracle; datový sklad
Thesis title: ETL process optimization
Author: Žák, Vítězslav
Thesis type: Diploma thesis
Supervisor: Novotný, Ota
Opponents: Maryška, Miloš
Thesis language: Česky
Abstract:
At a certain point of its life cycle, each data warehouse gets into a state in which the length of the ETL processing starts slowly approaching the acceptable limit. Even the slightest lapse means a hardly erasable time lag and the data supplies to users are increasingly delayed. Before the situation becomes more problematic, we need to react. This diploma thesis deals with the possible solutions of this problem- the ETL performance optimization. The main aim of the thesis is to propose the set of recommendations for the ETL process optimization and its presentation based on practical real world examples. While going through this thesis, the readers get inside the running of the real ETL optimization project. They learn how to proceed during its particular periods, what to avoid and how to reduce the risk level as much as possible. Moreover, the thesis mentions the prevention of the ETL performance loss and discusses the critical factors of the effective ETL process design. Although the proposed methods are described in a general perspective, the thesis is mainly focused on Oracle's database, which is its certain limitation. Also hardware optimization is not a part of the text. First chapters of the thesis describe the problem from the theoretical point of view, which is important for the correct understanding of the main content and the existing literature concerning this problematic is included here as well. Next sections describe the proposed methods and recommendations for the optimization of the ETL processes including tests and project results evaluation. They are mainly focused on the ETL process synchronization and the SQL code optimization areas. All the methods are presented of examples of the real project implemented by the author.
Keywords: transformation; optimization; Oracle; Data warehouse; ETL

Information about study

Study programme: Aplikovaná informatika/Informační systémy a technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 30. 9. 2010
Date of submission: 1. 5. 2011
Date of defense: 8. 6. 2011
Identifier in the InSIS system: https://insis.vse.cz/zp/27665/podrobnosti

Files for download

    Last update: