Comparison of data mining algorithms in real estate market analysis

Thesis title: Porovnanie dataminingových algoritmov pri analýze trhu s nehnuteľnosťami
Author: Hrušovská, Daniela
Thesis type: Diploma thesis
Supervisor: Pecáková, Iva
Opponents: Řezanková, Hana
Thesis language: Slovensky
Abstract:
Diplomová práca sa venuje štatistickým a dataminingovým algoritmom v oblasti nehnuteľností. Jednotlivé dáta, v celkovom počte 25 889 pozorovaní, predstavujú inzeráty na predaj bytov a domov, ktoré boli publikované od októbra 2020 do marca 2021. Pomocou modelov ako viacrozmerná regresná analýza, regresné spliny, rozhodovacie stromy, náhodné lesy a gradient boosting machine odhadujeme cenu nehnuteľností. Tvorba modelov prebieha na trénovacej množine dát a ich vyhodnotenie na testovacej. Práca je rozdelená na tri časti. V prvej sa nachádza teória k jednotlivým algoritmom a druhá časť je zameraná na dáta, ich spracovanie a základnú jednorozmernú analýzu. Tretia časť obsahuje modely cien nehnuteľností v podobe štyroch úloh, kde je rozdelenie na byty verzus domy a hlavné mesto Praha verzus republika. V diplomovej práci sledujeme dva ciele. Prvým z nich je analýza trhu nehnuteľnosti pomocou sledovaných premenných a stanovenie ich vplyvu na cenu. Druhým cieľom je tvorba modelov prostredníctvom spomenutých algoritmov v programovacom jazyku R a určenie, ktorý z nich je najvhodnejší z pohľadu predpovede ceny nehnuteľnosti.
Keywords: náhodné lesy; gradient boosting machine; nehnuteľnosti; regresia; regresné spliny; rozhodovacie stromy
Thesis title: Porovnanie dataminingových algoritmov pri analýze trhu s nehnuteľnosťami
Author: Hrušovská, Daniela
Thesis type: Diplomová práce
Supervisor: Pecáková, Iva
Opponents: Řezanková, Hana
Thesis language: Slovensky
Abstract:
Diplomová práce se věnuje statistickým a dataminingovým algoritmům v oblasti nemovitostí. Jednotlivá data, v celkovém počtu 25 889 pozorování, představují inzeráty na prodej bytů a domů, které byly publikovány od října 2020 do března 2021. Pomocí modelů jako vícerozměrná regresní analýza, regresní spliny, rozhodovací stromy, náhodné lesy a gradient boosting machine odhadujeme cenu nemovitostí. Tvorba modelů probíhá na trénovací množině dat a jejich vyhodnocení na testovací. Práce je rozdělena na tři části. V první se nachází teorie k jednotlivým algoritmům a druhá část je zaměřena na data, jejich zpracování a základní jednorozměrnou analýzu. Třetí část obsahuje modely cen nemovitostí v podobě čtyř úkolů, kde je rozdělení na byty versus domy a Prahu versus republiku. V diplomové práci sledujeme dva cíle. Prvním z nich je analýza trhu nemovitosti pomocí sledovaných proměnných a stanovení jejich vlivu na cenu. Druhým cílem je tvorba modelů prostřednictvím zmíněných algoritmů v programovacím jazyce R a určení, který z nich je nejvhodnější z pohledu předpovědi ceny nemovitosti.
Keywords: nemovitosti; rozhodovací stromy; regrese; regresní spliny; náhodné lesy; gradient boosting machine
Thesis title: Comparison of data mining algorithms in real estate market analysis
Author: Hrušovská, Daniela
Thesis type: Diploma thesis
Supervisor: Pecáková, Iva
Opponents: Řezanková, Hana
Thesis language: Slovensky
Abstract:
The diploma thesis is focused on statistical and data mining algorithms in the real estate market. Individual data, in total of 25 889 observations, represent apartment and house sales advertisements that were published between October 2020 and March 2021. Using models such as multidimensional regression analysis, regression splines, decision trees, random forests and gradient boosting machine, we estimate property prices. The creation of models takes place on a training dataset and their evaluation on a test dataset. The work is divided into three parts. The first one contains a theory of individual algorithms. The second part is focused on data, their processing and basic one-dimensional analysis. The third part contains models of real estate prices in the form of four tasks, where the division is into apartments versus houses and capital city Prague versus the republic. In the diploma thesis we pursue two goals. The first is the analysis of the real estate market using the monitored variables and determining their impact on the price. The second goal is to create models using the mentioned algorithms in the programming language R and to determine which of them is the most suitable regarding the real estate price estimation.
Keywords: properties; regression; regression splines; decision trees; random forests; gradient boosting machine

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 2. 9. 2019
Date of submission: 3. 12. 2021
Date of defense: 3. 2. 2022
Identifier in the InSIS system: https://insis.vse.cz/zp/70325/podrobnosti

Files for download

    Last update: