Thesis title: |
Algoritmy na analýzu kategoriálnych dát a ich podpora v balíčkoch pre Data Science |
Author: |
Franek, Rastislav |
Thesis type: |
Diploma thesis |
Supervisor: |
Máša, Petr |
Opponents: |
Chudán, David |
Thesis language: |
Slovensky |
Abstract: |
Táto diplomová práca sa zameriava na analýzu kategoriálnych dát, ktorá je dôležitá v rôznych vedeckých a priemyselných aplikáciách. Vzhľadom na to, že väčšina existujúcich algoritmov a štatistických metód je primárne navrhnutá pre numerické dáta, je nevyhnutné špecifikovať metódy, ktoré sú efektívne pre kategoriálne dáta. Práca sa sústreďuje na identifikáciu algoritmov a porovnanie knižníc v jazykoch Python a R, ktoré sú vhodné pre analýzu kategoriálnych dát v oblasti dátovej vedy. Hlavným cieľom je definovať a porovnať balíčky, ktoré poskytujú podporu pre tieto analýzy, a to na základe ich funkcionality, efektivity a jednoduchosti použitia. Práca obsahuje komplexné testovanie týchto balíčkov na reálnych datasetoch a formuluje odporúčania pre ich praktické využitie. Diplomová práca taktiež predkladá hodnotiace metriky pre porovnanie a výber najefektívnejších nástrojov pre špecifické úlohy v dátovej vede, pričom zohľadňuje súčasné výzvy a budúce smerovania v analýze kategoriálnych dát. |
Keywords: |
kategoriálne dáta; dátová veda; Python; R; štatistické metódy |
Thesis title: |
Algorithms for categorical data analysis and their support in Data Science packages |
Author: |
Franek, Rastislav |
Thesis type: |
Diploma thesis |
Supervisor: |
Máša, Petr |
Opponents: |
Chudán, David |
Thesis language: |
Slovensky |
Abstract: |
This thesis focuses on the analysis of categorical data, which is important in various scientific and industrial applications. Given that most existing algorithms and statistical methods are primarily designed for numerical data, it is essential to specify methods that are effective for categorical data. The work concentrates on identifying algorithms and comparing libraries in Python and R, which are suitable for analyzing categorical data in the field of data science. The main goal is to define and compare packages that provide support for these analyses, based on their functionality, efficiency, and ease of use. The thesis includes comprehensive testing of these packages on real datasets and formulates recommendations for their practical use. It also presents evaluative metrics for comparing and selecting the most effective tools for specific tasks in data science, considering current challenges and future directions in the analysis of categorical data. |
Keywords: |
categorical data; data science; Python; R; statistical methods |
Thesis title: |
Algoritmy na analýzu kategoriálních dat a jejich podpora v balíčcích pro Data Science |
Author: |
Franek, Rastislav |
Thesis type: |
Diplomová práce |
Supervisor: |
Máša, Petr |
Opponents: |
Chudán, David |
Thesis language: |
Slovensky |
Abstract: |
Tato diplomová práce se zaměřuje na analýzu kategoriálních dat, která je důležitá v různých vědeckých a průmyslových aplikacích. Vzhledem k tomu, že většina existujících algoritmů a statistických metod je primárně navržena pro numerická data, je nezbytné specifikovat metody, které jsou efektivní pro kategoriální data. Práce se soustředí na identifikaci algoritmů a porovnání knihoven v jazycích Python a R, které jsou vhodné pro analýzu kategoriálních dat v oblasti datové vědy. Hlavním cílem je definovat a porovnat balíčky, které poskytují podporu pro tyto analýzy, a to na základě jejich funkcionality, efektivity a jednoduchosti použití. Práce obsahuje komplexní testování těchto balíčků na reálných datasetech a formuluje doporučení pro jejich praktické využití. Diplomová práce také předkládá hodnoticí metriky pro porovnání a výběr nejefektivnějších nástrojů pro specifické úlohy v datové vědě, přičemž zohledňuje současné výzvy a budoucí směřování v analýze kategoriálních dat. |
Keywords: |
kategoriální data; dátová věda; Python; R; statistické metody |
Information about study
Study programme: |
Znalostní a webové technologie |
Type of study programme: |
Magisterský studijní program |
Assigned degree: |
Ing. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Informatics and Statistics |
Department: |
Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: |
29. 3. 2023 |
Date of submission: |
29. 4. 2024 |
Date of defense: |
2024 |
Files for download
The files will be available after the defense of the thesis.