Benchmarking and Comparison of Python Dataframe Libraries

Thesis title: Benchmarking a komparace dataframových knihoven v Pythonu
Author: Matějíček, Alex
Thesis type: Bakalářská práce
Supervisor: Karkošková, Soňa
Opponents: Maryška, Miloš
Thesis language: Česky
Abstract:
Tato bakalářská práce se zabývá srovnáním vybraných knihoven implementujících dataframovou strukturu v jazyce Python z hlediska jejich využitelnosti pro praktickou činnost v oblasti finančního auditu. Cílem práce bylo zhodnotit funkcionalitu, použitelnost, spolehlivost a výkon těchto knihoven a na základě testování navrhnout konkrétní doporučení pro jejich využití v praxi Big 4 firmy v oblasti auditu. Testování probíhalo převážně na základě replikovaných úloh z oblasti auditu a zahrnovalo knihovny pandas, modin, dask, polars, datatable, pyspark a vaex. Výsledky ukazují, že knihovna polars představuje nejvhodnější alternativu ke knihovně pandas v případě, že nejsou vyžadovány specifické vlastnosti jako podpora formátu HDF5 nebo podpora desetinných typů zachovávajících přesnost. Knihovna datatable se ukázala jako velmi efektivní pro specifické operace, zatímco knihovny modin a dask přinášejí výhody v oblasti kompatibility s pandas – často ale s vyššími náklady na procesor a paměť.
Keywords: benchmarking; Python; pandas; data frame; finanční audit
Thesis title: Benchmarking and Comparison of Python Dataframe Libraries
Author: Matějíček, Alex
Thesis type: Bachelor thesis
Supervisor: Karkošková, Soňa
Opponents: Maryška, Miloš
Thesis language: Česky
Abstract:
This bachelor's thesis focuses on comparing selected implementations of the dataframe structure in Python, in terms of their suitability for practical tasks in the field of financial auditing. The aim of the thesis was to evaluate the functionality, usability, reliability, and performance of these libraries and, based on testing, to propose specific recommendations for their use in practice at a Big 4 audit company. The testing was based primarily on replicated audit-related tasks and included the libraries pandas, modin, dask, polars, datatable, pyspark, and vaex. The results show that the polars library is most suitable as an alternative to pandas, provided that certain functionality – such as support for the HDF5 format or precise decimal types – is not required. The datatable library proved to be highly efficient for specific operations, while modin and dask offer advantages in terms of pandas API compatibility, albeit often at the cost of increased CPU and memory usage.
Keywords: Python; data frame; pandas; benchmarking; financial audit

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 29. 1. 2024
Date of submission: 12. 5. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: