COVID-19 Data Analysis

Thesis title: COVID-19 Data Analysis
Author: Maleškić, Nasiha
Thesis type: Diploma thesis
Supervisor: Berka, Petr
Opponents: Kliegr, Tomáš
Thesis language: English
Abstract:
This thesis analyses COVID-19 data. The dataset used covers data from all over the world. The main aim of this thesis is to analyse the data with the use of a clustering algorithm. This thesis consists of five parts. In the first part we explain what knowledge discovery in databases is and the tasks it solves, different areas of application and finally CRISP-DM which is the methodology used in this thesis. In the second part we explain different knowledge discovery methods including clustering which is used in the analysis part, as well as the environment and libraries used. In the third part we compare the COVID-19 pandemic with previous pandemics. In the fourth part we set the goals, clean and prepare the data and visualize the data to get a better understanding of it. In the final, fifth part, we create clustering models with different levels of granularity and by taking data for the entire world and then only for Europe. We also visualize the results and explain the visible patterns.
Keywords: COVID-19; data analysis; clustering; data visualization
Thesis title: Analýza dat COVID-19
Author: Maleškić, Nasiha
Thesis type: Diplomová práce
Supervisor: Berka, Petr
Opponents: Kliegr, Tomáš
Thesis language: English
Abstract:
Tato práce analyzuje data COVID-19. Použitá datová sada zahrnuje data z celého světa. Hlavním cílem této práce je analýza dat pomocí klastrového algoritmu. Tato práce se skládá z pěti částí. V první části vysvětlíme, co je vyhledávání znalostí v databázích a úkoly, které řeší, různé oblasti použití a nakonec CRISP-DM, což je metodika použitá v této práci. Ve druhé části vysvětlujeme různé metody zjišťování znalostí, včetně shlukování, které se používá v analytické části, a také použité prostředí a knihovny. Ve třetí části porovnáváme pandemii COVID-19 s předchozími pandemiemi. Ve čtvrté části jsme stanovili cíle, vyčistili a připravili data a vizualizovali data, abychom jim lépe porozuměli. V závěrečné páté části vytváříme shlukové modely s různou úrovní podrobnosti a na základě údajů pro celý svět a poté pouze pro Evropu. Také vizualizujeme výsledky a vysvětlíme viditelné vzory.
Keywords: shlukování; vizualizace dat; COVID-19; analýza dat

Information about study

Study programme: Aplikovaná informatika/Informační systémy a technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 4. 11. 2020
Date of submission: 3. 5. 2021
Date of defense: 8. 6. 2021
Identifier in the InSIS system: https://insis.vse.cz/zp/75007/podrobnosti

Files for download

    Last update: