Datová analýza českého realitního trhu

Název práce: Datová analýza českého realitního trhu
Autor(ka) práce: Sívek, Viktor
Typ práce: Bakalářská práce
Vedoucí práce: Chudán, David
Oponenti práce: Švarc, Lukáš
Jazyk práce: Česky
Abstrakt:
Cílem mé práce je aplikovat techniky web scrapingu a metody strojového učení na analýzu českého realitního trhu. Tato práce se zaměřuje na získávání konkrétních dat pomocí web scrapingu z webového realitního portálu. Získaná data mají za účel reflektovat aktuální stav českého realitního trhu. Dále se práce zabývá datovou analýzou pomocí Python knihoven a výsledky analýzy jsou vizualizovány. Nakonec jsou výsledky porovnány s daty z minulého roku a popsán vývoj dat v čase. Práce se dělí na teoretickou a praktickou část. V teoretické části je představena oblast web scrapingu, jeho principy, existující řešení a etický aspekt. Dále práce popisuje čistění dat a možnosti ukládání dat a práce s nimi. Jsou zde také popsány populární metodiky data miningu a analýzy dat, s důrazem na metodiku CRISP-DM. Poslední část je věnována teorii vizualizace. Praktická část práce začíná sběrem dat z webového realitního portálu www.bezrealitky.cz, včetně tvorby skriptu v jazyce Python. Následuje představení nástrojů použitých v průběhu analýzy a seznámením s doménovou oblastí realitních dat. Získaný dataset je poté předzpracován v prostředí Jupyter Notebook. Výsledná data jsou nejprve analyzována pomocí explorační analýzy a poté modelována s využitím klasifikačních, regresních a shlukovacích metod data miningu. Na závěr jsou výsledky porovnány s daty z minulého roku, popsán vývoj dat v čase a celá práce je shrnuta.
Klíčová slova: data mining; web scraping; data cleaning; datová analýza
Název práce: Data analysis of the Czech real estate market
Autor(ka) práce: Sívek, Viktor
Typ práce: Bachelor thesis
Vedoucí práce: Chudán, David
Oponenti práce: Švarc, Lukáš
Jazyk práce: Česky
Abstrakt:
The goal of my undergraduate thesis is to apply web scraping techniques and machine learning methods to the analysis of the Czech real estate market. This thesis focuses on data extraction using web scraping from a real estate portal. The data collected is intended to reflect the current state of the Czech real estate market. Furthermore, the thesis deals with data analysis using Python libraries and the results of the analysis are visualized in Jupyter notebook. Finally, the results are compared with the data from last year and the evolution of the data over time is described. The thesis is divided into theoretical and practical parts. The theoretical part introduces the field of web scraping, its principles, existing solutions and ethical aspect. Furthermore, the thesis describes data cleansing and the possibilities of storing and working with data. Popular data mining and data analysis methodologies are also described, with emphasis on CRISP-DM methodology. The last section is devoted to visualization theory. The practical part of the thesis starts with data collection from a web-based real estate portal www.bezrealitky.cz, including the development of a Python script. This is followed by an introduction of the tools used during the analysis and an introduction to the domain of real estate data. The obtained dataset is then preprocessed in the Jupyter Notebook environment. The resulting data is first analyzed using exploratory analysis and then using modeled with classification, regression and clustering data mining methods. Finally, the results are compared with the previous year's data, the evolution of the data over time is described, and the entire paper is summarized.
Klíčová slova: web scraping; data mining; data analysis; data cleaning

Informace o studiu

Studijní program / obor: Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 5. 1. 2023
Datum podání práce: 29. 6. 2023
Datum obhajoby: 22. 8. 2023
Identifikátor v systému InSIS: https://insis.vse.cz/zp/83275/podrobnosti

Soubory ke stažení

    Poslední aktualizace: