The Use of Publicly Available Data Sets in Statistical Analysis

Thesis title: Využití veřejně dostupných datových souborů ve statistické analýze
Author: Janečková, Monika
Thesis type: Bakalářská práce
Supervisor: Danko, Jakub
Opponents: Löster, Tomáš
Thesis language: Česky
Abstract:
Neustále rostoucí množství veřejně dostupných zdrojů představuje určitou výhodu při volbě datového souboru, který bude vhodný pro demonstraci statistických analýz. Tato bakalářská práce se zaměřuje na využití veřejně dostupných datových souborů ve výuce statistických předmětů. Hlavním cílem práce je nalezení datových souborů, které jsou vhodné pro konkrétní statistické metody, a jejich následná kategorizace. Teoretická část popisuje veřejně dostupné datové zdroje a statistické metody včetně statistických hypotéz, předpokladů a matematických vztahů. Praktická část se věnuje předvedení vybraných statistických analýz – analýze rozptylu, kontingenčním tabulkám a regresní analýze. Tyto analýzy jsou provedeny v kombinaci statistických softwarů MS Excel a Statgraphics. Výsledky jsou doplněny o interpretaci jednotlivých výstupů. Závěrem jsou doporučení pro využití datových souborů, které jsou vhodné pro ukázku již zmíněných statistických metod. Jedná se o cenný přínos pro studenty, ale také pedagogy, kteří hledají datové soubory vhodné pro rozvoj praktických dovedností.
Keywords: MS Excel; popisná statistika; Statgraphics; analýza dat; veřejně dostupné datové soubory; výuka statistických předmětů; analýza rozptylu; kontingenční tabulky; regresní analýzy; statistické metody
Thesis title: The Use of Publicly Available Data Sets in Statistical Analysis
Author: Janečková, Monika
Thesis type: Bachelor thesis
Supervisor: Danko, Jakub
Opponents: Löster, Tomáš
Thesis language: Česky
Abstract:
The continuously growing number of publicly available data sources represents a significant advantage when selecting datasets suitable for the demonstration of statistical analyses. This bachelor’s thesis focuses on the use of publicly available datasets in the teaching of statistics courses. The main goal of the thesis is to identify and categorize datasets that are appropriate for demonstrating specific statistical methods. The theoretical part of the thesis describes publicly available data sources and statistical methods, including statistical hypotheses, assumptions, and mathematical relationships. The practical part focuses on the application of selected statistical analyses – analysis of variance, contingency tables and regression analysis. These analyses are performed using a combination of statistical softwares, specifically MS Excel and Statgraphics. The results are complemented by interpretations of the outputs. Finally, recommendations are made for the use of datasets that are suitable for demonstrating the mentioned statistical methods. This is a valuable contribution for students as well as educators looking for datasets that support the development of practical skills.
Keywords: statistical methods; regression analysis; teaching of statistics; contingency tables; descriptive statistics; data analysis; publicly available datasets; analysis of variance; MS Excel; Statgraphics

Information about study

Study programme: Matematické metody v ekonomii/Datové analýzy a modelování
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 4. 2. 2025
Date of submission: 12. 5. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: