Data mining na reálných datech týkajících se onemocnění Covid-19
Název práce: | Data mining na reálnych dátach týkajúcich sa ochorenia Covid-19 |
---|---|
Autor(ka) práce: | Lešták, Lukáš |
Typ práce: | Diplomová práce |
Vedoucí práce: | Maryška, Miloš |
Oponenti práce: | Karkošková, Soňa |
Jazyk práce: | Slovensky |
Abstrakt: | Diplomová práca sa zaoberá použitím data miningu na reálnych dátach získaných z portálu Keggle.com. Reálne dáta sú reprezentované datasetom zameraným na pandémiu ochorenia Covid-19, ktorá ochromila celý svet a sú orientované na krajinu s druhou najväčšiu populáciou na svete, ktorou je India. V dobe, keď práca vznikala bolo šírenie vírusu spôsobujúceho ochorenie Covid-19 v plnom prúde a bolo otázne, čo prinesie budúcnosť. Ochromené boli rôzne odvetvia, ako zdravotníctvo, priemysel, doprava, gastronómia a mnoho ďalších. Táto práca je zameraná na použitie data miningu práve v oblasti zdravotníctva. Opisuje rôzne praktiky v tomto odvetví, ako najmä diagnostika, odhaľovanie podvodov a zlepšenie starostlivosti o pacienta. Data mining môže veľmi pomôcť aj pri boji proti globálnej nákaze, akou je práve Covid-19. Práca nepopisuje pojem data mining len na úrovni použitia v oblasti zdravotníctva, ale taktiež ho definuje na všeobecnej úrovni. Proces data miningu v tejto práci je prevedený podľa metodiky CRISP-DM, ktorá je jednou z najpopulárnejších. Praktická časť postupuje podľa jednotlivých fáz tejto metodiky za podpory nástroja Rapid Miner Studio. V tomto nástroji je uskutočnená analýza, ktorej výsledky predstavujú cieľ tejto práce. Konkrétne je to zodpovedanie troch analytických otázok, stanovených na začiatku praktickej časti, prezentovaných vizuálnymi výstupmi vo forme grafov a tabuliek. V praktickej časti sú použité známe algoritmy ako rozhodovacie stromy, logistická regresia a Bayesov klasifikátor, ktoré sú samozrejme popísane aj na teoretickej úrovni. |
Klíčová slova: | Data minig; Dolovanie znalostí z databáz; DZD; CRISP-DM; RapidMiner Studio; Covid-19 |
Název práce: | Data mining applied to real data related to Covid-19 |
---|---|
Autor(ka) práce: | Lešták, Lukáš |
Typ práce: | Diploma thesis |
Vedoucí práce: | Maryška, Miloš |
Oponenti práce: | Karkošková, Soňa |
Jazyk práce: | Slovensky |
Abstrakt: | The diploma thesis is focused on use of data mining applied on real data obtained from the Keggle.com portal. The real data is presented by a dataset focusing on the Covid-19 pandemic which has affected the whole world and it is oriented towards the country with the second largest population in the world which is India. During the writing of this thesis, Covid-19 was in full swing and the future was uncertain. Various sectors including healthcare, industry, transport, gastronomy etc. have been paralyzed. This thesis is focused on the use of data mining in the field of healthcare. It describes various practices in the industry such as: diagnostics, fraud detection and improving patient care. Data mining can be also very helpful in fighting a global contagion such as Covid-19. The thesis not only describes the concept of data mining in the field of healthcare, but it also defines it in general. The data mining process in this thesis is performed according to the CRISP-DM methodology, which is one of the most popular ones. The practical part proceeds according to the individual phases of this methodology with the support of the Rapid Miner Studio tool. An analysis is performed in this tool, the outcomes of which represent the main aim of this thesis. Specifically, it is the answer to the three analytical questions set at the beginning of the practical part, presented by visual outputs of graphs and tables. Known algorithms, such as decision trees, logistic regression and Bayesian classifier, are used in the practical part and they are as well described at the theoretical level. |
Klíčová slova: | Data mining; Knowledge discovery in databases; KDD; CRISP-DM; Rapid Miner Studio; Covid-19 |
Název práce: | Data mining na reálných datech týkajících se onemocnění Covid-19 |
---|---|
Autor(ka) práce: | Lešták, Lukáš |
Typ práce: | Diplomová práce |
Vedoucí práce: | Maryška, Miloš |
Oponenti práce: | Karkošková, Soňa |
Jazyk práce: | Slovensky |
Abstrakt: | Diplomová práce se zabývá použitím data miningu na reálných datech získaných z portálu Keggle.com. Reálná data jsou reprezentována datasetem zaměřeným na pandemii Covid-19, která ochromila celý svět a jsou orientována na zemi s druhou největší populací na světě, jíž je Indie. V době, kdy práce vznikala, bylo šíření viru Covid-19 v plném proudu a bylo otázkou, co přinese budoucnost. Ochromena byla různá odvětví jako zdravotnictví, průmysl, doprava, gastronomie a mnoho dalších. Tato práce je zaměřena na použití data miningu právě v oblasti zdravotnictví. Popisuje různé praktiky v tomto odvětví jako zejména diagnostiku, odhalování podvodů a zlepšení péče o pacienta. Data mining může velmi pomoci i při boji proti globální nákaze, jakou je právě Covid-19. Práce nepopisuje pojem data mining jen na úrovni použití v oblasti zdravotnictví, ale také jej definuje na všeobecné úrovni. Proces data miningu v této práci je proveden podle metodiky CRISP-DM, která je jednou z nejpopulárnějších. Praktická část postupuje podle jednotlivých fází této metodiky za podpory nástroje Rapid Miner Studio. V tomto nástroji je uskutečněna analýza, jejíž výsledky představují cíl této práce. Konkrétně je to zodpovězení třech analytických otázek stanovených na začátku praktické části, prezentovaných vizuálními výstupy ve formě grafů a tabulek. V praktické části jsou použity známé algoritmy jako rozhodovací stromy, logistická regrese a Bayersův klasifikátor, které jsou samozřejmě popsány i na teoretické úrovni. |
Klíčová slova: | Data mining; Dobývání znalostí z databází; DZD; CRISP-DM; Rapid Miner Studio; Covid-19 |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Informační systémy a technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
Datum zadání práce: | 3. 10. 2019 |
---|---|
Datum podání práce: | 2. 5. 2021 |
Datum obhajoby: | 4. 6. 2021 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/71042/podrobnosti |