Analýza nástrojů pro čištění, validaci a analýzu kvality dat v Pythonu
Autor(ka) práce:
Matějíček, Alex
Typ práce:
Bakalářská práce
Vedoucí práce:
Karkošková, Soňa
Oponenti práce:
Maryška, Miloš
Jazyk práce:
Česky
Abstrakt:
Tato práce se zabývá nástroji v Pythonu pro čištění, validaci a analýzu kvality dat s ohledem na běžný provoz velké firmy v oblasti finančního auditu. Hlavním cílem práce je identifikovat a testovat možné alternativy k oblíbené knihovně pandas, a také blíže poznat některé nadstavby nad dataframovými strukturami. Pomocí fixní sady testů nad stejným datasetem --- inspirovaných existujícími metodikami testování a volby softwaru --- tato práce vyhodnocuje, že alternativní implementace dataframové struktury jako polars a datatable mohou být vhodnější volbou zejména pro krátké a jednoduché jednorázové úkoly s konkrétním cílem. Tato práce ale shledává, že většina pomocných nadstaveb pro datové úkoly je kompatibilní pouze s pandas, bez podpory jiných dataframových implementací. Tato práce poskytuje informace zejména těm, kteří hledají úvod do dostupných datových nástrojů pro Python v roce 2024.
Klíčová slova:
data frame; Python; softwarové knihovny; pandas; manipulace s daty
Název práce:
Analysis of Python tools for data cleaning, validation, and quality analysis
Autor(ka) práce:
Matějíček, Alex
Typ práce:
Bachelor thesis
Vedoucí práce:
Karkošková, Soňa
Oponenti práce:
Maryška, Miloš
Jazyk práce:
Česky
Abstrakt:
This thesis explores various Python tools for data cleaning, validation, and quality analysis, with respect to common tasks of a Big 4 financial audit company. The primary objective was to identify and test viable alternatives to the popular pandas library, as well as to explore additional tools that operate on top of an underlying dataframe structure. Employing a fixed set of tests on a standardized dataset, the study evaluates a selected set of dataframe implementations, inspired by existing methodologies for software testing and selection as well as the author's own subjective "new-user experience". The results of these tests suggest that some alternatives such as polars and datatable may be a more efficient choice for short and simple "one-off" tasks with a specific goal in mind. However, it was observed that most supplementary tools for validation and data quality analysis are designed for pandas and do not support other dataframe implementations. This research provides relevant insights for those seeking an introduction to Python tools for data analysis in 2024.
Klíčová slova:
software libraries; pandas; data frame; data manipulation; Python