Výkon a efektivita systému ClickHouse v porovnání s PostgreSQL
Autor(ka) práce:
Bobák, Daniel
Typ práce:
Diplomová práce
Vedoucí práce:
Karkošková, Soňa
Oponenti práce:
Maršálek, Karel
Jazyk práce:
Česky
Abstrakt:
S rostoucím technologickým pokrokem a propojeností systémů neustále narůstá objem dat a informací, které jsou generované každý den. Tato data jsou jednou z nejcennějších komodit pro firmy a organizace, a to nejen z hlediska umožnění každodenního fungování procesů. V rámci analytických úloh je zpracování velkého objemu dat včetně historických klíčové pro získání užitečných znalostí nejen pro strategické rozhodování. Tato práce vznikla jako rozšíření implementační zprávy stážového projektu oddělení Datové Analytiky a Reportingu (DAR) Centra Informatiky. Jejím hlavním cílem je popsat proces experimentálního testování ClickHouse z různých hledisek, včetně porovnání s PostgreSQL, za účelem poznání, zdali tato technologie naplňuje očekávaný potenciál zrychlení práce s daty a efektivnějšího využití úložné kapacity. Zároveň je dalším cílem z dostupné literatury a vlastních zkušeností jasně definovat hlavní prvky a faktory této technologie, které přispívají k její vysoké účinnosti při zpracování větších objemů dat. První kapitola představuje výstup narativní literární rešerše s cílem zodpovězení stanovených výzkumných otázek. Rekapituluji relevantní dostupné studie, které se zabývají testováním účinnosti databázových systémů pro analytické účely, přičemž se zaměřuji na zdroje obsahující tematiku ClickHouse či sloupcově orientovaných databází. Na základě výstupu rešerše rovněž definuji hlavní prvky této technologie, které jí umožňují tak účinně zpracovávat mohutné objemy dat. Poslední tři kapitoly se zaměřují na popis a implementaci samotného experimentu, analýzu výsledků dílčích testů a odvození doporučení pro možné budoucí návrhy datového skladu (Data Warehouse – DWH) či datových tržišť na bázi ClickHouse.
Performance and efficiency of ClickHouse in comparison with PostgreSQL
Autor(ka) práce:
Bobák, Daniel
Typ práce:
Diploma thesis
Vedoucí práce:
Karkošková, Soňa
Oponenti práce:
Maršálek, Karel
Jazyk práce:
Česky
Abstrakt:
With technological progress and increased integration of systems comes the ever-increasing volume of data and information generated every day. This data is one of the most valuable assets businesses and organizations have and not just from the perspective of enabling day-to-day processes. Within analytical use cases, the processing of vast volumes of data, including historical, is key for gaining valuable insights and not just for strategic decision-making. This paper was written as an extension of the implementation report of an internship project at Department of Data Analytics and Reporting (DAR) of the Informatics Centre. Its main goal is to describe the process of testing ClickHouse from different perspectives, including comparison with PostgreSQL with the aim of determining whether this technology fulfils the expected potential for accelerating the speed of data processing and making storage space usage more efficient. Another goal of this thesis lies in defining the main components of this technology, using available literature and my own experiences, which are responsible for its high efficiency in processing larger amounts of data. First chapter takes the form of a narrative literature review with the goal of answering set research questions. I summarize relevant available studies that evaluate the efficiency of database systems for analytical purposes, focusing on those covering ClickHouse or column-oriented databases in general. Based on said review, I also define main elements of this technology, which allow it to process vast amounts of data so efficiently. Last three chapters focus on description and implementation of the experiment itself, analysis of results from individual tests and deriving recommendations for possible future designs of a data warehouse (DWH) or data marts based on ClickHouse.