Thesis title: |
Benchmarking a komparace dataframových knihoven v Pythonu |
Author: |
Matějíček, Alex |
Thesis type: |
Bakalářská práce |
Supervisor: |
Karkošková, Soňa |
Opponents: |
Maryška, Miloš |
Thesis language: |
Česky |
Abstract: |
Tato bakalářská práce se zabývá srovnáním vybraných knihoven implementujících dataframovou strukturu v jazyce Python z hlediska jejich využitelnosti pro praktickou činnost v oblasti finančního auditu. Cílem práce bylo zhodnotit funkcionalitu, použitelnost, spolehlivost a výkon těchto knihoven a na základě testování navrhnout konkrétní doporučení pro jejich využití v praxi Big 4 firmy v oblasti auditu. Testování probíhalo převážně na základě replikovaných úloh z oblasti auditu a zahrnovalo knihovny pandas, modin, dask, polars, datatable, pyspark a vaex. Výsledky ukazují, že knihovna polars představuje nejvhodnější alternativu ke knihovně pandas v případě, že nejsou vyžadovány specifické vlastnosti jako podpora formátu HDF5 nebo podpora desetinných typů zachovávajících přesnost. Knihovna datatable se ukázala jako velmi efektivní pro specifické operace, zatímco knihovny modin a dask přinášejí výhody v oblasti kompatibility s pandas – často ale s vyššími náklady na procesor a paměť. |
Keywords: |
benchmarking; Python; pandas; data frame; finanční audit |
Thesis title: |
Benchmarking and Comparison of Python Dataframe Libraries |
Author: |
Matějíček, Alex |
Thesis type: |
Bachelor thesis |
Supervisor: |
Karkošková, Soňa |
Opponents: |
Maryška, Miloš |
Thesis language: |
Česky |
Abstract: |
This bachelor's thesis focuses on comparing selected implementations of the dataframe structure in Python, in terms of their suitability for practical tasks in the field of financial auditing. The aim of the thesis was to evaluate the functionality, usability, reliability, and performance of these libraries and, based on testing, to propose specific recommendations for their use in practice at a Big 4 audit company. The testing was based primarily on replicated audit-related tasks and included the libraries pandas, modin, dask, polars, datatable, pyspark, and vaex. The results show that the polars library is most suitable as an alternative to pandas, provided that certain functionality – such as support for the HDF5 format or precise decimal types – is not required. The datatable library proved to be highly efficient for specific operations, while modin and dask offer advantages in terms of pandas API compatibility, albeit often at the cost of increased CPU and memory usage. |
Keywords: |
Python; data frame; pandas; benchmarking; financial audit |
Information about study
Study programme: |
Aplikovaná informatika |
Type of study programme: |
Bakalářský studijní program |
Assigned degree: |
Bc. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Informatics and Statistics |
Department: |
Department of Information Technologies |
Information on submission and defense
Date of assignment: |
29. 1. 2024 |
Date of submission: |
12. 5. 2025 |
Date of defense: |
2025 |
Files for download
The files will be available after the defense of the thesis.