Categorical Data Profiling and Visualization

Thesis title: Categorical Data Profiling and Visualization
Author: Nejedlý, Jan
Thesis type: Diploma thesis
Supervisor: Máša, Petr
Opponents: Sýkora, Lukáš
Thesis language: English
Abstract:
This work focuses on improving the Pandas-cat python package for profiling and visualizing categorical data, in particular improving missing value detection, correlation analysis of categorical data, data report design and its interactivity. Firstly, a market analysis of existing popular packages (Ydata, Lux, Sweetviz, Dataprep and AutoViz) is conducted, based on which improvements to the Pandas-cat package are identified and then implemented, including the creation of a new interactive report with enhanced design, visualizations, interactivity, additional features, a dark mode and better missing value detection. In addition, two new correlation coefficients (Spearman's Rank and Theil's U) have been implemented to allow more robust analysis of relationships between categorical attributes. These improvements make Pandas-cat a more specialized and efficient tool for analyzing categorical data and significantly improve its market position.
Keywords: categorical data; pandas; profiling; visualization; python
Thesis title: Profilování a vizualizace kategoriálních dat
Author: Nejedlý, Jan
Thesis type: Diplomová práce
Supervisor: Máša, Petr
Opponents: Sýkora, Lukáš
Thesis language: English
Abstract:
Tato práce je zaměřena na vylepšení python balíčku Pandas-cat pro profilování a vizualizaci kategoriálních dat, zejména na zlepšení detekce chybějících hodnot a korelační analýzy kategoriálních dat, vylepšení designu reportů dat a jejich interaktivity. Nejprve je provedena analýza trhu stávajících populárních balíčků (Ydata, Lux, Sweetviz, Dataprep a AutoViz), na základě které jsou identifikovány a následně implementovány vylepšení balíčku Pandas-cat, včetně vytvoření nového interaktivního reportu, lepšího designu, vizualizací, interaktivity, dodatečných funkcí, tmavého režimu a lepší detekce chybějících hodnot. Kromě toho došlo k implementaci dvou nových korelačních koeficientů (Spearman Rank a Theil’s U), které umožňují robustnější analýzu vztahů mezi kategoriálními atributy. Díky těmto vylepšením se Pandas-cat stává specializovanějším a efektivnějším nástrojem pro analýzu kategoriálních dat a výrazně zlepšuje své postavení na trhu.
Keywords: python; kategoriální data; profilování; vizualizace; pandas

Information about study

Study programme: Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 13. 3. 2024
Date of submission: 1. 12. 2024
Date of defense: 2024

Files for download

The files will be available after the defense of the thesis.

    Last update: