Analýza nástrojů pro čištění, validaci a analýzu kvality dat v Pythonu
Author:
Matějíček, Alex
Thesis type:
Bakalářská práce
Supervisor:
Karkošková, Soňa
Opponents:
Maryška, Miloš
Thesis language:
Česky
Abstract:
Tato práce se zabývá nástroji v Pythonu pro čištění, validaci a analýzu kvality dat s ohledem na běžný provoz velké firmy v oblasti finančního auditu. Hlavním cílem práce je identifikovat a testovat možné alternativy k oblíbené knihovně pandas, a také blíže poznat některé nadstavby nad dataframovými strukturami. Pomocí fixní sady testů nad stejným datasetem --- inspirovaných existujícími metodikami testování a volby softwaru --- tato práce vyhodnocuje, že alternativní implementace dataframové struktury jako polars a datatable mohou být vhodnější volbou zejména pro krátké a jednoduché jednorázové úkoly s konkrétním cílem. Tato práce ale shledává, že většina pomocných nadstaveb pro datové úkoly je kompatibilní pouze s pandas, bez podpory jiných dataframových implementací. Tato práce poskytuje informace zejména těm, kteří hledají úvod do dostupných datových nástrojů pro Python v roce 2024.
Keywords:
data frame; Python; softwarové knihovny; pandas; manipulace s daty
Thesis title:
Analysis of Python tools for data cleaning, validation, and quality analysis
Author:
Matějíček, Alex
Thesis type:
Bachelor thesis
Supervisor:
Karkošková, Soňa
Opponents:
Maryška, Miloš
Thesis language:
Česky
Abstract:
This thesis explores various Python tools for data cleaning, validation, and quality analysis, with respect to common tasks of a Big 4 financial audit company. The primary objective was to identify and test viable alternatives to the popular pandas library, as well as to explore additional tools that operate on top of an underlying dataframe structure. Employing a fixed set of tests on a standardized dataset, the study evaluates a selected set of dataframe implementations, inspired by existing methodologies for software testing and selection as well as the author's own subjective "new-user experience". The results of these tests suggest that some alternatives such as polars and datatable may be a more efficient choice for short and simple "one-off" tasks with a specific goal in mind. However, it was observed that most supplementary tools for validation and data quality analysis are designed for pandas and do not support other dataframe implementations. This research provides relevant insights for those seeking an introduction to Python tools for data analysis in 2024.
Keywords:
software libraries; pandas; data frame; data manipulation; Python
Information about study
Study programme:
Aplikovaná informatika
Type of study programme:
Bakalářský studijní program
Assigned degree:
Bc.
Institutions assigning academic degree:
Vysoká škola ekonomická v Praze
Faculty:
Faculty of Informatics and Statistics
Department:
Department of Information Technologies
Information on submission and defense
Date of assignment:
29. 1. 2024
Date of submission:
8. 12. 2024
Date of defense:
2025
Files for download
The files will be available after the defense of the thesis.