Analýza realitního trhu USA

Thesis title: Analýza realitního trhu USA
Author: Sachek, Herman
Thesis type: Bachelor thesis
Supervisor: Berka, Petr
Opponents: Kliegr, Tomáš
Thesis language: English
Abstract:
The aim of this bachelor's thesis is to collect data on the residential real estate market in the United States through web scraping and to analyze it using exploratory data analysis and data mining techniques in order to identify patterns, relationships between attributes, and regional differences within the market. The theoretical part introduces the field of Knowledge Discovery in Databases (KDD) and explains key concepts, including its definition, historical development, main process steps, and the CRISP-DM methodology. It also explores the topic of web scraping, covering its definition, applications, and the techniques used, such as static HTML parsing and dynamic content extraction. The practical part follows the CRISP-DM framework and applies it to the analysis of the U.S. real estate market. It begins with business understanding, including the selection of a relevant data source and the choice of cities for extraction. Data is collected using web scraping and prepared through the Data Understanding and Data Preparation phases. Finally, exploratory data analysis (EDA) and modeling techniques are applied to uncover insights from the dataset.
Keywords: web scraping; data analysis; Data mining
Thesis title: Analýza realitního trhu USA
Author: Sachek, Herman
Thesis type: Bakalářská práce
Supervisor: Berka, Petr
Opponents: Kliegr, Tomáš
Thesis language: English
Abstract:
Cílem této bakalářské práce je shromáždit data o trhu rezidenčních nemovitostí ve Spojených státech pomocí web scrapingu a analyzovat je s využitím explorační analýzy dat a technik data miningu za účelem identifikace vzorců, vztahů mezi atributy a regionálních rozdílů na trhu. Teoretická část představuje oblast Dobývání Znalostí z Databáze a vysvětluje klíčové pojmy, včetně její definice, historického vývoje, hlavních kroků procesu a metodologie CRISP-DM. Dále se zabývá tématem web scrapingu, jeho definicí, využitím a technikami, jako je statické parsování HTML nebo extrakce dynamického obsahu. Praktická část se řídí metodologií CRISP-DM a je aplikována na analýzu trhu nemovitostí v USA. Začíná fází porozumění podnikatelskému cíli (business understanding), včetně výběru vhodného zdroje dat a měst pro sběr dat. Data jsou získána pomocí web scrapingu a následně připravena v rámci fází Data Understanding a Data Preparation. Nakonec jsou aplikovány metody explorační analýzy dat a modelování za účelem odhalení poznatků z datové sady.
Keywords: Data mining; web scrapping; datová analýza

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 3. 5. 2024
Date of submission: 12. 5. 2025
Date of defense: 18. 6. 2025
Identifier in the InSIS system: https://insis.vse.cz/zp/88377/podrobnosti

Files for download

    Last update: