Thesis title: |
Categorical Data Profiling and Visualization |
Author: |
Nejedlý, Jan |
Thesis type: |
Diploma thesis |
Supervisor: |
Máša, Petr |
Opponents: |
Sýkora, Lukáš |
Thesis language: |
English |
Abstract: |
This work focuses on improving the Pandas-cat python package for profiling and visualizing categorical data, in particular improving missing value detection, correlation analysis of categorical data, data report design and its interactivity. Firstly, a market analysis of existing popular packages (Ydata, Lux, Sweetviz, Dataprep and AutoViz) is conducted, based on which improvements to the Pandas-cat package are identified and then implemented, including the creation of a new interactive report with enhanced design, visualizations, interactivity, additional features, a dark mode and better missing value detection. In addition, two new correlation coefficients (Spearman's Rank and Theil's U) have been implemented to allow more robust analysis of relationships between categorical attributes. These improvements make Pandas-cat a more specialized and efficient tool for analyzing categorical data and significantly improve its market position. |
Keywords: |
categorical data; pandas; profiling; visualization; python |
Thesis title: |
Profilování a vizualizace kategoriálních dat |
Author: |
Nejedlý, Jan |
Thesis type: |
Diplomová práce |
Supervisor: |
Máša, Petr |
Opponents: |
Sýkora, Lukáš |
Thesis language: |
English |
Abstract: |
Tato práce je zaměřena na vylepšení python balíčku Pandas-cat pro profilování a vizualizaci kategoriálních dat, zejména na zlepšení detekce chybějících hodnot a korelační analýzy kategoriálních dat, vylepšení designu reportů dat a jejich interaktivity. Nejprve je provedena analýza trhu stávajících populárních balíčků (Ydata, Lux, Sweetviz, Dataprep a AutoViz), na základě které jsou identifikovány a následně implementovány vylepšení balíčku Pandas-cat, včetně vytvoření nového interaktivního reportu, lepšího designu, vizualizací, interaktivity, dodatečných funkcí, tmavého režimu a lepší detekce chybějících hodnot. Kromě toho došlo k implementaci dvou nových korelačních koeficientů (Spearman Rank a Theil’s U), které umožňují robustnější analýzu vztahů mezi kategoriálními atributy. Díky těmto vylepšením se Pandas-cat stává specializovanějším a efektivnějším nástrojem pro analýzu kategoriálních dat a výrazně zlepšuje své postavení na trhu. |
Keywords: |
python; kategoriální data; profilování; vizualizace; pandas |
Information about study
Study programme: |
Znalostní a webové technologie |
Type of study programme: |
Magisterský studijní program |
Assigned degree: |
Ing. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Informatics and Statistics |
Department: |
Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: |
13. 3. 2024 |
Date of submission: |
1. 12. 2024 |
Date of defense: |
2024 |
Files for download
The files will be available after the defense of the thesis.