COVID-19 Data Analysis
Thesis title: | COVID-19 Data Analysis |
---|---|
Author: | Maleškić, Nasiha |
Thesis type: | Diploma thesis |
Supervisor: | Berka, Petr |
Opponents: | Kliegr, Tomáš |
Thesis language: | English |
Abstract: | This thesis analyses COVID-19 data. The dataset used covers data from all over the world. The main aim of this thesis is to analyse the data with the use of a clustering algorithm. This thesis consists of five parts. In the first part we explain what knowledge discovery in databases is and the tasks it solves, different areas of application and finally CRISP-DM which is the methodology used in this thesis. In the second part we explain different knowledge discovery methods including clustering which is used in the analysis part, as well as the environment and libraries used. In the third part we compare the COVID-19 pandemic with previous pandemics. In the fourth part we set the goals, clean and prepare the data and visualize the data to get a better understanding of it. In the final, fifth part, we create clustering models with different levels of granularity and by taking data for the entire world and then only for Europe. We also visualize the results and explain the visible patterns. |
Keywords: | COVID-19; data analysis; clustering; data visualization |
Thesis title: | Analýza dat COVID-19 |
---|---|
Author: | Maleškić, Nasiha |
Thesis type: | Diplomová práce |
Supervisor: | Berka, Petr |
Opponents: | Kliegr, Tomáš |
Thesis language: | English |
Abstract: | Tato práce analyzuje data COVID-19. Použitá datová sada zahrnuje data z celého světa. Hlavním cílem této práce je analýza dat pomocí klastrového algoritmu. Tato práce se skládá z pěti částí. V první části vysvětlíme, co je vyhledávání znalostí v databázích a úkoly, které řeší, různé oblasti použití a nakonec CRISP-DM, což je metodika použitá v této práci. Ve druhé části vysvětlujeme různé metody zjišťování znalostí, včetně shlukování, které se používá v analytické části, a také použité prostředí a knihovny. Ve třetí části porovnáváme pandemii COVID-19 s předchozími pandemiemi. Ve čtvrté části jsme stanovili cíle, vyčistili a připravili data a vizualizovali data, abychom jim lépe porozuměli. V závěrečné páté části vytváříme shlukové modely s různou úrovní podrobnosti a na základě údajů pro celý svět a poté pouze pro Evropu. Také vizualizujeme výsledky a vysvětlíme viditelné vzory. |
Keywords: | shlukování; vizualizace dat; COVID-19; analýza dat |
Information about study
Study programme: | Aplikovaná informatika/Informační systémy a technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 4. 11. 2020 |
---|---|
Date of submission: | 3. 5. 2021 |
Date of defense: | 8. 6. 2021 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/75007/podrobnosti |