Benchmarking a komparace dataframových knihoven v Pythonu

Název práce: Benchmarking a komparace dataframových knihoven v Pythonu
Autor(ka) práce: Matějíček, Alex
Typ práce: Bakalářská práce
Vedoucí práce: Karkošková, Soňa
Oponenti práce: Maryška, Miloš
Jazyk práce: Česky
Abstrakt:
Tato bakalářská práce se zabývá srovnáním vybraných knihoven implementujících dataframovou strukturu v jazyce Python z hlediska jejich využitelnosti pro praktickou činnost v oblasti finančního auditu. Cílem práce bylo zhodnotit funkcionalitu, použitelnost, spolehlivost a výkon těchto knihoven a na základě testování navrhnout konkrétní doporučení pro jejich využití v praxi Big 4 firmy v oblasti auditu. Testování probíhalo převážně na základě replikovaných úloh z oblasti auditu a zahrnovalo knihovny pandas, modin, dask, polars, datatable, pyspark a vaex. Výsledky ukazují, že knihovna polars představuje nejvhodnější alternativu ke knihovně pandas v případě, že nejsou vyžadovány specifické vlastnosti jako podpora formátu HDF5 nebo podpora desetinných typů zachovávajících přesnost. Knihovna datatable se ukázala jako velmi efektivní pro specifické operace, zatímco knihovny modin a dask přinášejí výhody v oblasti kompatibility s pandas – často ale s vyššími náklady na procesor a paměť.
Klíčová slova: benchmarking; Python; pandas; data frame; finanční audit
Název práce: Benchmarking and Comparison of Python Dataframe Libraries
Autor(ka) práce: Matějíček, Alex
Typ práce: Bachelor thesis
Vedoucí práce: Karkošková, Soňa
Oponenti práce: Maryška, Miloš
Jazyk práce: Česky
Abstrakt:
This bachelor's thesis focuses on comparing selected implementations of the dataframe structure in Python, in terms of their suitability for practical tasks in the field of financial auditing. The aim of the thesis was to evaluate the functionality, usability, reliability, and performance of these libraries and, based on testing, to propose specific recommendations for their use in practice at a Big 4 audit company. The testing was based primarily on replicated audit-related tasks and included the libraries pandas, modin, dask, polars, datatable, pyspark, and vaex. The results show that the polars library is most suitable as an alternative to pandas, provided that certain functionality – such as support for the HDF5 format or precise decimal types – is not required. The datatable library proved to be highly efficient for specific operations, while modin and dask offer advantages in terms of pandas API compatibility, albeit often at the cost of increased CPU and memory usage.
Klíčová slova: Python; data frame; pandas; benchmarking; financial audit

Informace o studiu

Studijní program / obor: Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 29. 1. 2024
Datum podání práce: 12. 5. 2025
Datum obhajoby: 2025

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: