Využití principů business intelligence v dotazníkových šetřeních

Název práce: Využití principů business intelligence v dotazníkových šetřeních
Autor(ka) práce: Hanuš, Václav
Typ práce: Diplomová práce
Vedoucí práce: Maryška, Miloš
Oponenti práce: Novotný, Ota
Jazyk práce: Česky
Abstrakt:
Tato práce je zaměřena na praktické použití nástrojů pro dolování dat a business intelligence. Mezi hlavní cíle patří zpracování zdrojových dat do vhodné podoby a zkušební nasazení vybraného nástroje na testovací úloze. Jako vstupní data posloužila databáze vzniklá zpracováním dotazníkových šetření, užitých pro ověření úrovně výuky IT a ekonomických předmětů napříč českými vysokými školami. Tyto data jsem následně upravil tak, aby je bylo možné zpracovat pomocí nástrojů pro dolování dat, které jsou obsaženy v balíku software Microsoft SQL Server 2008. Pro ověření možností jsem zvolil dvě úlohy. První úloha byla zaměřena na shlukování s využitím algoritmu Microsoft Clustering. Její náplní bylo roztřídění škol do shluků na základě jednotlivých atributů odpovídajících skupinám předmětů ohodnocených počty kreditů z nich získaných. Při řešení nastaly dva problémy. Bylo třeba snížit počet skupin předmětů, jinak hrozilo, že pro shlukování vznikne větší množství shluků, než dovedu pojmenovat. Dalším problémem bylo nestejnoměrné ohodnocení jednotlivých skupin předmětů a od toho se odvíjející problémy s váhami jednotlivých atributů. Řešení bylo nakonec vcelku jednoduché. Ve skupinách předmětů jsem vybral atributy, které se obsahově blíží nebo se překrývají a ty jsem následně sloučil do obecnějších kategorií. Co se týče následného nestejnoměrného rozložení kreditů použitých pro ohodnocení, pomocí parametru jsem každou nově vzniklou skupinu předmětů převedl na stupnici 0-5. Ve druhé úloze jsem se zaměřil na předpověď budoucí hodnoty a využití algoritmů Microsoft Logistic Regresion a Microsoft Neural Network. Zde bylo cílem provést předpověď počtu studujících studentů. K dispozici byla historická data z let 2001-2009. Na jejich základě byl sestrojen prediktivní model, jehož výsledky jsem mohl porovnat se skutečnými daty. Také bylo v rámci řešení potřeba upravit zdrojová data tak, aby umožnila nasazení testovaného nástroje. Původní data byla umístěna v pohledu namísto tabulky a navíc data obsahovala i záznamy nejenom o studujících, ale i různě roztříděné. Například podle pohlaví. Řešením bylo tedy vytvoření nové tabulky, do které se umístily jen záznamy podstatné pro řešenou úlohu. Posledním problém nastal při pokusu o predikci roku 2010, ke kterému nebyla skutečná data. Software nahlásil chybu a predikci neprovedl. Při mém pátrání, jsem na technické podpoře společnosti Microsoft nalezl několik odkazů na podobný problém, takže je pravděpodobné, že se jedná o systémovou chybu, která bude opravená v rámci aktualizace. Splnění těchto úkolů mi poskytlo dostatek indicií pro ověření možností softwaru dodávaného společností Microsoft. Po mých předchozích školních zkušenostech se software pro dolování dat od společností IBM (dříve SSPS) a SAS tak mohu dobře porovnat, zda se prověřovaný nástroj těmto hlavním hráčům na trhu dokáže vyrovnat a zda je vhodný pro seriózní využití.
Klíčová slova: Microsoft SQL Server 2008; předpověď budoucích hodnot; neuronové sítě; shlukování; dolování dat; Business Intelligence
Název práce: Business Intelligence principles and their use in questionnaire investigation
Autor(ka) práce: Hanuš, Václav
Typ práce: Diploma thesis
Vedoucí práce: Maryška, Miloš
Oponenti práce: Novotný, Ota
Jazyk práce: Česky
Abstrakt:
This thesis is oriented on practical usage of tools for data mining and business intelligence. Main goals are processing of source data to suitable form and test use of chosen tool on the test case. As input data I used database which was created as result of processing forms from research to verify the level of IT and economics knowledge among Czech universities. These data was modified into the form, which allows processing them via data mining tools included in Microsoft SQL Server 2008. I choose two cases for verification the potentials of these tools. First case was focused on clustering using Microsoft Clustering algorithm. Main task was to sort the universities into the clusters by comparing their attributes which was amounts of credits of each knowledge group. I had to deal with two problems. It was necessary to reduce the number of groups of subjects, otherwise there was a danger of creation too many clusters which I couldn't put the name on. Another problem was unequal value of credits in each group and this problem caused another problem with weights of these groups. Solution was at the end quite simple. I put together similar groups to bigger formation with more general category. For unequal value, I used parameter for each of new group and transform it to scale 0-5. Second case was focused on prediction task using Microsoft Logistic Regresion algorithm and Microsoft Neural Network algorithm. In this case was the goal to predict the number of presently studying students. I had a historical data from years 2001-2009. A predictive model was processed based on them and I could compare the prediction with real data. In this case, it was also necessary to transform the source data, otherwise it couldn't be processed by tested tool. Original data was placed into the view instead of table and contained not only wished objects but more types of these. For example divided by a sex. Solution was in creation of new table in database where only relevant objects for test case were placed. Last problem come up when I tried to use prediction model to predict data for year 2010 for which there wasn't real data in the table. Software reported an error and couldn't make prediction. During my research on the Microsoft technical support I find some threads which refer to similar problem, so it's possible that this is a system error whit will be fix in forthcoming actualization. Fulfillment of these cases provided me enough clues to determine abilities of these tools from Microsoft. After my former school experience with data mining tools from IBM (former SSPS) and SAS, I can recognize, if tested tools can match these software from major data mining supplier on the market and if it can be use for serious deployment.
Klíčová slova: Data Mining; Neural Network; Prediction of future values; Microsoft SQL Server 2008; Business Intelligence; Clustering

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační systémy a technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 1. 12. 2010
Datum podání práce: 14. 5. 2011
Datum obhajoby: 23. 8. 2011
Identifikátor v systému InSIS: https://insis.vse.cz/zp/29947/podrobnosti

Soubory ke stažení

    Poslední aktualizace: