Use of data mining for analysis of the Czech real estate market

Thesis title: Využití data miningu pro analýzu českého realitního trhu
Author: Tsakunov, Ilya
Thesis type: Bakalářská práce
Supervisor: Chudán, David
Opponents: Berka, Petr
Thesis language: Česky
Abstract:
Cílem této bakalářské práce je získat data z českého realitního portálu pomocí web scrapingu a následně tato data analyzovat s využitím explorační analýzy a vybraných metod data miningu za účelem vyhledání zajímavých vztahů. Práce se dělí na teoretickou a praktickou část. Teoretická část předně představuje oblast data miningu, včetně popisu nezbytných pojmů, vybraných metod a způsobů jejích evaluace. Kromě toho jsou popsány populární metodiky data miningu, obzvlášť je věnována pozornost metodice CRISP-DM. Pak je popsána technologie web scrapingu, jeho principy, existující řešení a také etický aspekt. Praktická část začíná představením nástrojů, které byly použity během analýzy. Pak obsahuje stručné seznámení s doménovou oblastí realitních dat. Následuje popis sběru dat z webových stránek realitního portálu, včetně hledání API a tvorby skriptu v jazyce Python. Získaný dataset je dále předzpracován v prostředí Jupyter Notebook. Výsledná data jsou nejprve analyzována pomocí explorační analýzy. Potom následuje analýza s využitím klasifikačních, regresních a popisných metod data miningu. Na konci práce jsou prodiskutovány výsledky analýzy a na závěr je shrnutá celá práce.
Keywords: Data mining; web scraping; realitní trh; explorační analýza
Thesis title: Use of data mining for analysis of the Czech real estate market
Author: Tsakunov, Ilya
Thesis type: Bachelor thesis
Supervisor: Chudán, David
Opponents: Berka, Petr
Thesis language: Česky
Abstract:
The aim of this bachelor thesis is to obtain data from the Czech real estate portal using web scraping and then analyze this data using exploratory analysis and selected data mining methods in order to find interesting relationships. The thesis is divided into theoretical and practical part. The theoretical part primarily represents the area of data mining, including the description of the necessary concepts, selected methods and ways of its evaluation. In addition, popular data mining methodologies are described, in particular, attention is paid to the CRISP-DM methodology. Then the technology of web scraping, its principles, existing solutions, and also the ethical aspect are described. The practical part begins with the introduction of the tools that were used during the analysis. Then it contains a brief introduction to the domain area of real estate. This is followed by a description of data collection from the real estate portal website, including API search and script creation in Python. The obtained dataset is further pre-processed in the Jupyter notebook environment. The resulting data is first analyzed using exploratory analysis. Then follows the analysis using classification, regression and descriptive methods of data mining. At the end of the thesis, the results of the analysis are discussed, and in conclusion the whole thesis is summarized.
Keywords: Data mining; web scraping; real estate market; exploratory analysis

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 3. 11. 2021
Date of submission: 9. 5. 2022
Date of defense: 23. 6. 2022
Identifier in the InSIS system: https://insis.vse.cz/zp/78632/podrobnosti

Files for download

    Last update: