Data analysis of the Czech real estate market

Thesis title: Datová analýza českého realitního trhu
Author: Sívek, Viktor
Thesis type: Bakalářská práce
Supervisor: Chudán, David
Opponents: Švarc, Lukáš
Thesis language: Česky
Abstract:
Cílem mé práce je aplikovat techniky web scrapingu a metody strojového učení na analýzu českého realitního trhu. Tato práce se zaměřuje na získávání konkrétních dat pomocí web scrapingu z webového realitního portálu. Získaná data mají za účel reflektovat aktuální stav českého realitního trhu. Dále se práce zabývá datovou analýzou pomocí Python knihoven a výsledky analýzy jsou vizualizovány. Nakonec jsou výsledky porovnány s daty z minulého roku a popsán vývoj dat v čase. Práce se dělí na teoretickou a praktickou část. V teoretické části je představena oblast web scrapingu, jeho principy, existující řešení a etický aspekt. Dále práce popisuje čistění dat a možnosti ukládání dat a práce s nimi. Jsou zde také popsány populární metodiky data miningu a analýzy dat, s důrazem na metodiku CRISP-DM. Poslední část je věnována teorii vizualizace. Praktická část práce začíná sběrem dat z webového realitního portálu www.bezrealitky.cz, včetně tvorby skriptu v jazyce Python. Následuje představení nástrojů použitých v průběhu analýzy a seznámením s doménovou oblastí realitních dat. Získaný dataset je poté předzpracován v prostředí Jupyter Notebook. Výsledná data jsou nejprve analyzována pomocí explorační analýzy a poté modelována s využitím klasifikačních, regresních a shlukovacích metod data miningu. Na závěr jsou výsledky porovnány s daty z minulého roku, popsán vývoj dat v čase a celá práce je shrnuta.
Keywords: data mining; web scraping; data cleaning; datová analýza
Thesis title: Data analysis of the Czech real estate market
Author: Sívek, Viktor
Thesis type: Bachelor thesis
Supervisor: Chudán, David
Opponents: Švarc, Lukáš
Thesis language: Česky
Abstract:
The goal of my undergraduate thesis is to apply web scraping techniques and machine learning methods to the analysis of the Czech real estate market. This thesis focuses on data extraction using web scraping from a real estate portal. The data collected is intended to reflect the current state of the Czech real estate market. Furthermore, the thesis deals with data analysis using Python libraries and the results of the analysis are visualized in Jupyter notebook. Finally, the results are compared with the data from last year and the evolution of the data over time is described. The thesis is divided into theoretical and practical parts. The theoretical part introduces the field of web scraping, its principles, existing solutions and ethical aspect. Furthermore, the thesis describes data cleansing and the possibilities of storing and working with data. Popular data mining and data analysis methodologies are also described, with emphasis on CRISP-DM methodology. The last section is devoted to visualization theory. The practical part of the thesis starts with data collection from a web-based real estate portal www.bezrealitky.cz, including the development of a Python script. This is followed by an introduction of the tools used during the analysis and an introduction to the domain of real estate data. The obtained dataset is then preprocessed in the Jupyter Notebook environment. The resulting data is first analyzed using exploratory analysis and then using modeled with classification, regression and clustering data mining methods. Finally, the results are compared with the previous year's data, the evolution of the data over time is described, and the entire paper is summarized.
Keywords: web scraping; data mining; data analysis; data cleaning

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 5. 1. 2023
Date of submission: 29. 6. 2023
Date of defense: 22. 8. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/83275/podrobnosti

Files for download

    Last update: