Analýza dat COVID-19
Název práce: | COVID-19 Data Analysis |
---|---|
Autor(ka) práce: | Maleškić, Nasiha |
Typ práce: | Diploma thesis |
Vedoucí práce: | Berka, Petr |
Oponenti práce: | Kliegr, Tomáš |
Jazyk práce: | English |
Abstrakt: | This thesis analyses COVID-19 data. The dataset used covers data from all over the world. The main aim of this thesis is to analyse the data with the use of a clustering algorithm. This thesis consists of five parts. In the first part we explain what knowledge discovery in databases is and the tasks it solves, different areas of application and finally CRISP-DM which is the methodology used in this thesis. In the second part we explain different knowledge discovery methods including clustering which is used in the analysis part, as well as the environment and libraries used. In the third part we compare the COVID-19 pandemic with previous pandemics. In the fourth part we set the goals, clean and prepare the data and visualize the data to get a better understanding of it. In the final, fifth part, we create clustering models with different levels of granularity and by taking data for the entire world and then only for Europe. We also visualize the results and explain the visible patterns. |
Klíčová slova: | COVID-19; data analysis; clustering; data visualization |
Název práce: | Analýza dat COVID-19 |
---|---|
Autor(ka) práce: | Maleškić, Nasiha |
Typ práce: | Diplomová práce |
Vedoucí práce: | Berka, Petr |
Oponenti práce: | Kliegr, Tomáš |
Jazyk práce: | English |
Abstrakt: | Tato práce analyzuje data COVID-19. Použitá datová sada zahrnuje data z celého světa. Hlavním cílem této práce je analýza dat pomocí klastrového algoritmu. Tato práce se skládá z pěti částí. V první části vysvětlíme, co je vyhledávání znalostí v databázích a úkoly, které řeší, různé oblasti použití a nakonec CRISP-DM, což je metodika použitá v této práci. Ve druhé části vysvětlujeme různé metody zjišťování znalostí, včetně shlukování, které se používá v analytické části, a také použité prostředí a knihovny. Ve třetí části porovnáváme pandemii COVID-19 s předchozími pandemiemi. Ve čtvrté části jsme stanovili cíle, vyčistili a připravili data a vizualizovali data, abychom jim lépe porozuměli. V závěrečné páté části vytváříme shlukové modely s různou úrovní podrobnosti a na základě údajů pro celý svět a poté pouze pro Evropu. Také vizualizujeme výsledky a vysvětlíme viditelné vzory. |
Klíčová slova: | shlukování; vizualizace dat; COVID-19; analýza dat |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Informační systémy a technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 4. 11. 2020 |
---|---|
Datum podání práce: | 3. 5. 2021 |
Datum obhajoby: | 8. 6. 2021 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/75007/podrobnosti |