Profilování a vizualizace kategoriálních dat

Název práce: Categorical Data Profiling and Visualization
Autor(ka) práce: Nejedlý, Jan
Typ práce: Diploma thesis
Vedoucí práce: Máša, Petr
Oponenti práce: Sýkora, Lukáš
Jazyk práce: English
Abstrakt:
This work focuses on improving the Pandas-cat python package for profiling and visualizing categorical data, in particular improving missing value detection, correlation analysis of categorical data, data report design and its interactivity. Firstly, a market analysis of existing popular packages (Ydata, Lux, Sweetviz, Dataprep and AutoViz) is conducted, based on which improvements to the Pandas-cat package are identified and then implemented, including the creation of a new interactive report with enhanced design, visualizations, interactivity, additional features, a dark mode and better missing value detection. In addition, two new correlation coefficients (Spearman's Rank and Theil's U) have been implemented to allow more robust analysis of relationships between categorical attributes. These improvements make Pandas-cat a more specialized and efficient tool for analyzing categorical data and significantly improve its market position.
Klíčová slova: categorical data; pandas; profiling; visualization; python
Název práce: Profilování a vizualizace kategoriálních dat
Autor(ka) práce: Nejedlý, Jan
Typ práce: Diplomová práce
Vedoucí práce: Máša, Petr
Oponenti práce: Sýkora, Lukáš
Jazyk práce: English
Abstrakt:
Tato práce je zaměřena na vylepšení python balíčku Pandas-cat pro profilování a vizualizaci kategoriálních dat, zejména na zlepšení detekce chybějících hodnot a korelační analýzy kategoriálních dat, vylepšení designu reportů dat a jejich interaktivity. Nejprve je provedena analýza trhu stávajících populárních balíčků (Ydata, Lux, Sweetviz, Dataprep a AutoViz), na základě které jsou identifikovány a následně implementovány vylepšení balíčku Pandas-cat, včetně vytvoření nového interaktivního reportu, lepšího designu, vizualizací, interaktivity, dodatečných funkcí, tmavého režimu a lepší detekce chybějících hodnot. Kromě toho došlo k implementaci dvou nových korelačních koeficientů (Spearman Rank a Theil’s U), které umožňují robustnější analýzu vztahů mezi kategoriálními atributy. Díky těmto vylepšením se Pandas-cat stává specializovanějším a efektivnějším nástrojem pro analýzu kategoriálních dat a výrazně zlepšuje své postavení na trhu.
Klíčová slova: python; kategoriální data; profilování; vizualizace; pandas

Informace o studiu

Studijní program / obor: Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 13. 3. 2024
Datum podání práce: 1. 12. 2024
Datum obhajoby: 2024

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: