Algorithms for categorical data analysis and their support in Data Science packages

Thesis title: Algoritmy na analýzu kategoriálnych dát a ich podpora v balíčkoch pre Data Science
Author: Franek, Rastislav
Thesis type: Diploma thesis
Supervisor: Máša, Petr
Opponents: Chudán, David
Thesis language: Slovensky
Abstract:
Táto diplomová práca sa zameriava na analýzu kategoriálnych dát, ktorá je dôležitá v rôznych vedeckých a priemyselných aplikáciách. Vzhľadom na to, že väčšina existujúcich algoritmov a štatistických metód je primárne navrhnutá pre numerické dáta, je nevyhnutné špecifikovať metódy, ktoré sú efektívne pre kategoriálne dáta. Práca sa sústreďuje na identifikáciu algoritmov a porovnanie knižníc v jazykoch Python a R, ktoré sú vhodné pre analýzu kategoriálnych dát v oblasti dátovej vedy. Hlavným cieľom je definovať a porovnať balíčky, ktoré poskytujú podporu pre tieto analýzy, a to na základe ich funkcionality, efektivity a jednoduchosti použitia. Práca obsahuje komplexné testovanie týchto balíčkov na reálnych datasetoch a formuluje odporúčania pre ich praktické využitie. Diplomová práca taktiež predkladá hodnotiace metriky pre porovnanie a výber najefektívnejších nástrojov pre špecifické úlohy v dátovej vede, pričom zohľadňuje súčasné výzvy a budúce smerovania v analýze kategoriálnych dát.
Keywords: kategoriálne dáta; dátová veda; Python; R; štatistické metódy
Thesis title: Algorithms for categorical data analysis and their support in Data Science packages
Author: Franek, Rastislav
Thesis type: Diploma thesis
Supervisor: Máša, Petr
Opponents: Chudán, David
Thesis language: Slovensky
Abstract:
This thesis focuses on the analysis of categorical data, which is important in various scientific and industrial applications. Given that most existing algorithms and statistical methods are primarily designed for numerical data, it is essential to specify methods that are effective for categorical data. The work concentrates on identifying algorithms and comparing libraries in Python and R, which are suitable for analyzing categorical data in the field of data science. The main goal is to define and compare packages that provide support for these analyses, based on their functionality, efficiency, and ease of use. The thesis includes comprehensive testing of these packages on real datasets and formulates recommendations for their practical use. It also presents evaluative metrics for comparing and selecting the most effective tools for specific tasks in data science, considering current challenges and future directions in the analysis of categorical data.
Keywords: categorical data; data science; Python; R; statistical methods
Thesis title: Algoritmy na analýzu kategoriálních dat a jejich podpora v balíčcích pro Data Science
Author: Franek, Rastislav
Thesis type: Diplomová práce
Supervisor: Máša, Petr
Opponents: Chudán, David
Thesis language: Slovensky
Abstract:
Tato diplomová práce se zaměřuje na analýzu kategoriálních dat, která je důležitá v různých vědeckých a průmyslových aplikacích. Vzhledem k tomu, že většina existujících algoritmů a statistických metod je primárně navržena pro numerická data, je nezbytné specifikovat metody, které jsou efektivní pro kategoriální data. Práce se soustředí na identifikaci algoritmů a porovnání knihoven v jazycích Python a R, které jsou vhodné pro analýzu kategoriálních dat v oblasti datové vědy. Hlavním cílem je definovat a porovnat balíčky, které poskytují podporu pro tyto analýzy, a to na základě jejich funkcionality, efektivity a jednoduchosti použití. Práce obsahuje komplexní testování těchto balíčků na reálných datasetech a formuluje doporučení pro jejich praktické využití. Diplomová práce také předkládá hodnoticí metriky pro porovnání a výběr nejefektivnějších nástrojů pro specifické úlohy v datové vědě, přičemž zohledňuje současné výzvy a budoucí směřování v analýze kategoriálních dat.
Keywords: kategoriální data; dátová věda; Python; R; statistické metody

Information about study

Study programme: Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 29. 3. 2023
Date of submission: 29. 4. 2024
Date of defense: 2024

Files for download

The files will be available after the defense of the thesis.

    Last update: