Využití data miningu pro analýzu českého realitního trhu

Název práce: Využití data miningu pro analýzu českého realitního trhu
Autor(ka) práce: Tsakunov, Ilya
Typ práce: Bakalářská práce
Vedoucí práce: Chudán, David
Oponenti práce: Berka, Petr
Jazyk práce: Česky
Abstrakt:
Cílem této bakalářské práce je získat data z českého realitního portálu pomocí web scrapingu a následně tato data analyzovat s využitím explorační analýzy a vybraných metod data miningu za účelem vyhledání zajímavých vztahů. Práce se dělí na teoretickou a praktickou část. Teoretická část předně představuje oblast data miningu, včetně popisu nezbytných pojmů, vybraných metod a způsobů jejích evaluace. Kromě toho jsou popsány populární metodiky data miningu, obzvlášť je věnována pozornost metodice CRISP-DM. Pak je popsána technologie web scrapingu, jeho principy, existující řešení a také etický aspekt. Praktická část začíná představením nástrojů, které byly použity během analýzy. Pak obsahuje stručné seznámení s doménovou oblastí realitních dat. Následuje popis sběru dat z webových stránek realitního portálu, včetně hledání API a tvorby skriptu v jazyce Python. Získaný dataset je dále předzpracován v prostředí Jupyter Notebook. Výsledná data jsou nejprve analyzována pomocí explorační analýzy. Potom následuje analýza s využitím klasifikačních, regresních a popisných metod data miningu. Na konci práce jsou prodiskutovány výsledky analýzy a na závěr je shrnutá celá práce.
Klíčová slova: Data mining; web scraping; realitní trh; explorační analýza
Název práce: Use of data mining for analysis of the Czech real estate market
Autor(ka) práce: Tsakunov, Ilya
Typ práce: Bachelor thesis
Vedoucí práce: Chudán, David
Oponenti práce: Berka, Petr
Jazyk práce: Česky
Abstrakt:
The aim of this bachelor thesis is to obtain data from the Czech real estate portal using web scraping and then analyze this data using exploratory analysis and selected data mining methods in order to find interesting relationships. The thesis is divided into theoretical and practical part. The theoretical part primarily represents the area of data mining, including the description of the necessary concepts, selected methods and ways of its evaluation. In addition, popular data mining methodologies are described, in particular, attention is paid to the CRISP-DM methodology. Then the technology of web scraping, its principles, existing solutions, and also the ethical aspect are described. The practical part begins with the introduction of the tools that were used during the analysis. Then it contains a brief introduction to the domain area of real estate. This is followed by a description of data collection from the real estate portal website, including API search and script creation in Python. The obtained dataset is further pre-processed in the Jupyter notebook environment. The resulting data is first analyzed using exploratory analysis. Then follows the analysis using classification, regression and descriptive methods of data mining. At the end of the thesis, the results of the analysis are discussed, and in conclusion the whole thesis is summarized.
Klíčová slova: Data mining; web scraping; real estate market; exploratory analysis

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 3. 11. 2021
Datum podání práce: 9. 5. 2022
Datum obhajoby: 23. 6. 2022
Identifikátor v systému InSIS: https://insis.vse.cz/zp/78632/podrobnosti

Soubory ke stažení

    Poslední aktualizace: