This work focuses on improving the Pandas-cat python package for profiling and visualizing categorical data, in particular improving missing value detection, correlation analysis of categorical data, data report design and its interactivity. Firstly, a market analysis of existing popular packages (Ydata, Lux, Sweetviz, Dataprep and AutoViz) is conducted, based on which improvements to the Pandas-cat package are identified and then implemented, including the creation of a new interactive report with enhanced design, visualizations, interactivity, additional features, a dark mode and better missing value detection. In addition, two new correlation coefficients (Spearman's Rank and Theil's U) have been implemented to allow more robust analysis of relationships between categorical attributes. These improvements make Pandas-cat a more specialized and efficient tool for analyzing categorical data and significantly improve its market position.
Tato práce je zaměřena na vylepšení python balíčku Pandas-cat pro profilování a vizualizaci kategoriálních dat, zejména na zlepšení detekce chybějících hodnot a korelační analýzy kategoriálních dat, vylepšení designu reportů dat a jejich interaktivity. Nejprve je provedena analýza trhu stávajících populárních balíčků (Ydata, Lux, Sweetviz, Dataprep a AutoViz), na základě které jsou identifikovány a následně implementovány vylepšení balíčku Pandas-cat, včetně vytvoření nového interaktivního reportu, lepšího designu, vizualizací, interaktivity, dodatečných funkcí, tmavého režimu a lepší detekce chybějících hodnot. Kromě toho došlo k implementaci dvou nových korelačních koeficientů (Spearman Rank a Theil’s U), které umožňují robustnější analýzu vztahů mezi kategoriálními atributy. Díky těmto vylepšením se Pandas-cat stává specializovanějším a efektivnějším nástrojem pro analýzu kategoriálních dat a výrazně zlepšuje své postavení na trhu.