DataHub – Automated web scraper

Thesis title: DataHub - Systém pro automatizované stahování dat z internetu
Author: Sedláček, David
Thesis type: Diplomová práce
Supervisor: Maryška, Miloš
Opponents: Kučera, Jan
Thesis language: Česky
Abstract:
Tato diplomová práce se věnuje datovému projektu společnosti Obce v Datech. Cílem práce je popsat vývoj jednotlivých komponent a jejich následnou integraci do datového řešení – Data Hubu, které pomocí inovativních technologií dokáže realizovat bezpečné a inteligentní prohledávání webových stránek a konkrétně zacílit a stahovat data a informace napomáhající k rozvoji datové základny a následného použití stažených dat ke zvyšování datové gramotnosti veřejnosti a veřejné správy. Dílčí cíle, nutné k dosažení kompletního datového řešení sestávají z vytvoření datové platformy a integrování návazných komponent. Mezi tyto komponenty patří webový crawler, který pomocí využití neuronových sítí inteligentně prohledává internet a stahuje data a mobilní aplikace umožňující zobrazovat stažená data a poskytnout celistvý obraz koncovému uživateli. V práci bude položen krátký teoretický základ nutný pro chápání jednotlivých technologií, bude vysvětlen přínos autora projektu a přínos samotného projektu pro společnost, stejně jako zhodnocení celkové práce a pohled na udržitelnost projektu.
Keywords: databáze; web crawler; datový projekt; python; aplikace; data
Thesis title: DataHub – Automated web scraper
Author: Sedláček, David
Thesis type: Diploma thesis
Supervisor: Maryška, Miloš
Opponents: Kučera, Jan
Thesis language: Česky
Abstract:
This diploma thesis deals with the data project of the company Obce v Datech. The aim of this work is to describe the development of individual components and their subsequent integration into a data solution - Data Hub, which can use innovative technologies to implement secure and intelligent web browsing and specifically target and download data and information to develop the database and subsequent use of downloaded data to increase data literacy of the public and public administration. The partial goals necessary to achieve a complete data solution consist of creating a data platform and integrating related components. These components include a web crawler that uses neural networks to intelligently search the Internet and download data, and mobile applications to view downloaded data and provide a complete picture to the end user. The thesis will lay a short theoretical basis necessary for understanding the various technologies, will explain the contribution of the author of the project and the contribution of the project itself to society, as well as the evaluation of the overall work and a view of project sustainability.
Keywords: python; appliacation; data project; data; web crawler; database

Information about study

Study programme: Data a analytika pro business
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 20. 7. 2021
Date of submission: 29. 6. 2023
Date of defense: 9. 10. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/81054/podrobnosti

Files for download

    Last update: