Analysis and visualization of data from job offer portals

Thesis title: Analýza a vizualizace dat z webových portálů nabídek práce
Author: Zanikov, Melikset
Thesis type: Diplomová práce
Supervisor: Šedivá, Zuzana
Opponents: Pour, Jan
Thesis language: Česky
Abstract:
Hlavním cílem práce je získat, analyticky zpracovat a vizualizovat data z portálu nabídek práce. Následná vizualizace je formou dashboardů v aplikaci Power BI. Pro splnění hlavního cíle práce je nutné získat znalosti v oblasti web scraping, jakožto způsobu získávání dat. Za účelem zpracování dat je nutné vytvořit vhodné Business Intelligence řešení, pro které je nutné načerpat znalosti v této oblasti. Pro závěrečné vytvoření dashboardů jsou potřebné znalosti z oblasti vizualizace dat.V teoretické části je nejdříve popsána problematika web scraping. Dále je popsán právní aspekt problematiky a jakým způsobem lze web scraping použít v oblasti data science společně s praktickými příklady. Další část se zabývá definicí Business Intelligence, jeho historie a rozdíly mezi klasickými datovými sklady a použitím SSBI. Poslední kapitola teoretické části se zabývá způsoby návrhu vizualizací dat a popisem rozložení dashboardu.V praktické části je nejdříve provedena úvodní studie, ve které byli definováni uživatelé vizualizací společně s jejich požadavky pomocí nestrukturovaného interview. Poté následuje analýza existujících webových portálu a vybrání jednoho z nich pro následné zpracování. V dalších kapitolách je navržena a implementována architektura Business Intelligence řešení. Nejdříve je vytvořen skript pro stahování dat, následně datový sklad a poté tabulární model. V závěru práce jsou navrženy a implementovány dashboardy v aplikaci Power BI.
Keywords: Web scraping; ETL; Datový sklad; Tabulární model; Vizualizace dat; Power BI
Thesis title: Analysis and visualization of data from job offer portals
Author: Zanikov, Melikset
Thesis type: Diploma thesis
Supervisor: Šedivá, Zuzana
Opponents: Pour, Jan
Thesis language: Česky
Abstract:
The main goal of the thesis is to obtain, analytically process and visualize data from a job offer portal. The data visualization take form of dashboards created in Power BI application. To meet the main goal of the thesis, it is necessary to gain knowledge in the field of web scraping, such is the way of obtaining data. For the ability to create fitting Business Intelligence solution, it is necessary to gain knowledge in this area. And for the final creation of dashboards it is needed to have knowledge of data visualization.The theoretical part describes the topic of web scraping. It also describes how web scraping can be used in the field of data science together with practical examples followed by the legal aspect of such. The next part describes definition of Business Intelligence, its history and the differences between classical data warehouses and the use of SSBI. The last chapter of theoretical part presents ways how to design data visualizations and describes dashboard layouts.In the practical part, an introductory study is first performed, in which the users of the visualizations are defined together with their requirements by means of an unstructured interview. This is followed by an analysis of existing web portals and selecting one of them for further processing. In the following chapters, the architecture of the business intelligence solution is designed and implemented. Firstly, a script for scraping data is created, then a data warehouse followed by a tabular model. At the end of the thesis, dashboards in Power BI application are designed and implemented.
Keywords: Web scraping; Data warehouse; ETL; Tabular model; Data visualization; Power BI

Information about study

Study programme: Aplikovaná informatika/Informační systémy a technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 6. 10. 2019
Date of submission: 3. 5. 2020
Date of defense: 8. 6. 2020
Identifier in the InSIS system: https://insis.vse.cz/zp/71117/podrobnosti

Files for download

    Last update: