Data warehouse based on IBM technologies and its possibilities

Thesis title: Datový sklad na technologiích IBM a jeho možnosti
Author: Snítil, Jiří
Thesis type: Diplomová práce
Supervisor: Pour, Jan
Opponents: Novotný, Ota
Thesis language: Česky
Abstract:
Tato diplomová práce se zabývá analýzou rozšiřujících konceptů použitelných v datových skladech. V práci jsou vybrány tři rozšiřující koncepty k analýze a je zdůvodněn jejich výběr. Prvním z nich je způsob zachycení změn ve zdrojových systémech Change Data Capture (CDC). Druhým z nich je historizace takto zachycených změn do historické kolekce dat. Třetím z nich je použití analytických funkcí přímo v technologii datového skladu. Pro analýzu těchto vybraných rozšiřujících konceptů je vytvořeno nové testovací prostředí, v kterém je jako hlavní databázový systém použita technologie Netezza dostupná v produktu IBM PureData System for Analytics, powered by Netezza technology (PDA). Všechny vybrané rozšiřující koncepty jsou v tomto testovacím prostředí vyzkoušeny. Na základě výsledků z testovacího prostředí a poznatků z praxe jsou analyzovány dopady použití těchto rozšiřujících konceptů na datový sklad a to zejména vzhledem k možným přínosům. V testovacím prostředí bylo také ověřeno, že všechny analyzované rozšiřující koncepty je možné použít v rámci datového skladu. V prvním rozšiřujícím konceptu bylo mapování LiveAudit vybráno jako vhodné pro použití při dalším zpracování dat, kdy s jeho pomocí je možné jednoznačně určit stav dat zdrojového systému v libovolném minulém časovém bodě. V druhém rozšiřujícím konceptu bylo vyzkoušeno, že data získaná pomocí mapování LiveAudit lze efektivně zpracovávat do historické kolekce dat. Na tomto základě bylo navrženo generické řešení zpracování dat ze zdrojových systémů. Ve třetím rozšiřujícím konceptu bylo vyzkoušeno, že lze pracovat v nativním analytickém prostředí RGui a přenést samotný výpočet k datům, umístěným v datovém skladu, bez nutnosti jejich migrace a že je možné vyvinout a používat nové analytické funkce napsané v jazyce C++ přímo v technologii datového skladu.
Keywords: IBM InfoSphere Change Data Capture; IBM Netezza Analytics; Netezza; Uživatelsky definované funkce; UDF; UDX; IBM PureData for Analytics; analytické funkce; historická kolekce dat; historizace; Change Data Capture; rozšiřující koncepty datového skladu; datový sklad; temporální data
Thesis title: Data warehouse based on IBM technologies and its possibilities
Author: Snítil, Jiří
Thesis type: Diploma thesis
Supervisor: Pour, Jan
Opponents: Novotný, Ota
Thesis language: Česky
Abstract:
This diploma thesis deals with the analysis of advanced data warehouse concepts where three advanced data warehouse concepts are analysed and their selection is justified. The first selected advanced data warehouse concept is a method of capturing data changes from sources system Change Data Capture (CDC). The second concept is the historization of captured data into historical data collection. The third concept is the application of analytical functions directly within data warehouse technology. A new testing environment has been created to analyse these concepts where the main database system Netezza available in IBM PureData System for Analytics, powered by Netezza technology (PDA), is utilised. This testing environment allowed all selected advanced data warehouse concepts to be reviewed. An impact of the application of these advanced data warehouse concepts has been analysed based on results from the testing environment and practical insights, particularly regarding potential advances. In the testing environment it was verified that all analysed advanced data warehouse concepts are applicable in a data warehouse. In the first advanced data warehouse concept was chosen LiveAudit mapping as appropriate for further data processing, when with this mapping it is possible to unambiguously determine the state of data in a source system at any point in the past. The second advanced data warehouse concept established that data acquired from LiveAudit mapping is possible to effectively process into historical data collection. Based on these findings, there was proposed generic solution of processing data from source systems. In the third advanced data warehouse concept was also proved, that it is possible to work in native analytic environment RGui and move the computation itself into data, which is located in the data warehouse, without the necessity of migration of these data. Further, it is possible to develop and use a new analytic function written in C++ language directly into the technology of the data warehouse.
Keywords: IBM Netezza Analytics; IBM InfoSphere Change Data Capture; IBM PureData for Analytics; Netezza; User-defined function; UDF; UDX; analytics functions; temporal data; historical data collection; historization; Change Data Capture; data warehouse; advanced data warehouse concepts

Information about study

Study programme: Aplikovaná informatika/Informační systémy a technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 10. 5. 2016
Date of submission: 30. 4. 2017
Date of defense: 2. 6. 2017
Identifier in the InSIS system: https://insis.vse.cz/zp/57626/podrobnosti

Files for download

    Last update: