Analysis and visualization of data from job offer portals
Thesis title: | Analýza a vizualizace dat z webových portálů nabídek práce |
---|---|
Author: | Zanikov, Melikset |
Thesis type: | Diplomová práce |
Supervisor: | Šedivá, Zuzana |
Opponents: | Pour, Jan |
Thesis language: | Česky |
Abstract: | Hlavním cílem práce je získat, analyticky zpracovat a vizualizovat data z portálu nabídek práce. Následná vizualizace je formou dashboardů v aplikaci Power BI. Pro splnění hlavního cíle práce je nutné získat znalosti v oblasti web scraping, jakožto způsobu získávání dat. Za účelem zpracování dat je nutné vytvořit vhodné Business Intelligence řešení, pro které je nutné načerpat znalosti v této oblasti. Pro závěrečné vytvoření dashboardů jsou potřebné znalosti z oblasti vizualizace dat.V teoretické části je nejdříve popsána problematika web scraping. Dále je popsán právní aspekt problematiky a jakým způsobem lze web scraping použít v oblasti data science společně s praktickými příklady. Další část se zabývá definicí Business Intelligence, jeho historie a rozdíly mezi klasickými datovými sklady a použitím SSBI. Poslední kapitola teoretické části se zabývá způsoby návrhu vizualizací dat a popisem rozložení dashboardu.V praktické části je nejdříve provedena úvodní studie, ve které byli definováni uživatelé vizualizací společně s jejich požadavky pomocí nestrukturovaného interview. Poté následuje analýza existujících webových portálu a vybrání jednoho z nich pro následné zpracování. V dalších kapitolách je navržena a implementována architektura Business Intelligence řešení. Nejdříve je vytvořen skript pro stahování dat, následně datový sklad a poté tabulární model. V závěru práce jsou navrženy a implementovány dashboardy v aplikaci Power BI. |
Keywords: | Web scraping; ETL; Datový sklad; Tabulární model; Vizualizace dat; Power BI |
Thesis title: | Analysis and visualization of data from job offer portals |
---|---|
Author: | Zanikov, Melikset |
Thesis type: | Diploma thesis |
Supervisor: | Šedivá, Zuzana |
Opponents: | Pour, Jan |
Thesis language: | Česky |
Abstract: | The main goal of the thesis is to obtain, analytically process and visualize data from a job offer portal. The data visualization take form of dashboards created in Power BI application. To meet the main goal of the thesis, it is necessary to gain knowledge in the field of web scraping, such is the way of obtaining data. For the ability to create fitting Business Intelligence solution, it is necessary to gain knowledge in this area. And for the final creation of dashboards it is needed to have knowledge of data visualization.The theoretical part describes the topic of web scraping. It also describes how web scraping can be used in the field of data science together with practical examples followed by the legal aspect of such. The next part describes definition of Business Intelligence, its history and the differences between classical data warehouses and the use of SSBI. The last chapter of theoretical part presents ways how to design data visualizations and describes dashboard layouts.In the practical part, an introductory study is first performed, in which the users of the visualizations are defined together with their requirements by means of an unstructured interview. This is followed by an analysis of existing web portals and selecting one of them for further processing. In the following chapters, the architecture of the business intelligence solution is designed and implemented. Firstly, a script for scraping data is created, then a data warehouse followed by a tabular model. At the end of the thesis, dashboards in Power BI application are designed and implemented. |
Keywords: | Web scraping; Data warehouse; ETL; Tabular model; Data visualization; Power BI |
Information about study
Study programme: | Aplikovaná informatika/Informační systémy a technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information Technologies |
Information on submission and defense
Date of assignment: | 6. 10. 2019 |
---|---|
Date of submission: | 3. 5. 2020 |
Date of defense: | 8. 6. 2020 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/71117/podrobnosti |