Analýza dat COVID-19

Název práce: COVID-19 Data Analysis
Autor(ka) práce: Maleškić, Nasiha
Typ práce: Diploma thesis
Vedoucí práce: Berka, Petr
Oponenti práce: Kliegr, Tomáš
Jazyk práce: English
Abstrakt:
This thesis analyses COVID-19 data. The dataset used covers data from all over the world. The main aim of this thesis is to analyse the data with the use of a clustering algorithm. This thesis consists of five parts. In the first part we explain what knowledge discovery in databases is and the tasks it solves, different areas of application and finally CRISP-DM which is the methodology used in this thesis. In the second part we explain different knowledge discovery methods including clustering which is used in the analysis part, as well as the environment and libraries used. In the third part we compare the COVID-19 pandemic with previous pandemics. In the fourth part we set the goals, clean and prepare the data and visualize the data to get a better understanding of it. In the final, fifth part, we create clustering models with different levels of granularity and by taking data for the entire world and then only for Europe. We also visualize the results and explain the visible patterns.
Klíčová slova: COVID-19; data analysis; clustering; data visualization
Název práce: Analýza dat COVID-19
Autor(ka) práce: Maleškić, Nasiha
Typ práce: Diplomová práce
Vedoucí práce: Berka, Petr
Oponenti práce: Kliegr, Tomáš
Jazyk práce: English
Abstrakt:
Tato práce analyzuje data COVID-19. Použitá datová sada zahrnuje data z celého světa. Hlavním cílem této práce je analýza dat pomocí klastrového algoritmu. Tato práce se skládá z pěti částí. V první části vysvětlíme, co je vyhledávání znalostí v databázích a úkoly, které řeší, různé oblasti použití a nakonec CRISP-DM, což je metodika použitá v této práci. Ve druhé části vysvětlujeme různé metody zjišťování znalostí, včetně shlukování, které se používá v analytické části, a také použité prostředí a knihovny. Ve třetí části porovnáváme pandemii COVID-19 s předchozími pandemiemi. Ve čtvrté části jsme stanovili cíle, vyčistili a připravili data a vizualizovali data, abychom jim lépe porozuměli. V závěrečné páté části vytváříme shlukové modely s různou úrovní podrobnosti a na základě údajů pro celý svět a poté pouze pro Evropu. Také vizualizujeme výsledky a vysvětlíme viditelné vzory.
Klíčová slova: shlukování; vizualizace dat; COVID-19; analýza dat

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační systémy a technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 4. 11. 2020
Datum podání práce: 3. 5. 2021
Datum obhajoby: 8. 6. 2021
Identifikátor v systému InSIS: https://insis.vse.cz/zp/75007/podrobnosti

Soubory ke stažení

    Poslední aktualizace: