Využití data miningu pro analýzu českého realitního trhu
Název práce: | Využití data miningu pro analýzu českého realitního trhu |
---|---|
Autor(ka) práce: | Tsakunov, Ilya |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Chudán, David |
Oponenti práce: | Berka, Petr |
Jazyk práce: | Česky |
Abstrakt: | Cílem této bakalářské práce je získat data z českého realitního portálu pomocí web scrapingu a následně tato data analyzovat s využitím explorační analýzy a vybraných metod data miningu za účelem vyhledání zajímavých vztahů. Práce se dělí na teoretickou a praktickou část. Teoretická část předně představuje oblast data miningu, včetně popisu nezbytných pojmů, vybraných metod a způsobů jejích evaluace. Kromě toho jsou popsány populární metodiky data miningu, obzvlášť je věnována pozornost metodice CRISP-DM. Pak je popsána technologie web scrapingu, jeho principy, existující řešení a také etický aspekt. Praktická část začíná představením nástrojů, které byly použity během analýzy. Pak obsahuje stručné seznámení s doménovou oblastí realitních dat. Následuje popis sběru dat z webových stránek realitního portálu, včetně hledání API a tvorby skriptu v jazyce Python. Získaný dataset je dále předzpracován v prostředí Jupyter Notebook. Výsledná data jsou nejprve analyzována pomocí explorační analýzy. Potom následuje analýza s využitím klasifikačních, regresních a popisných metod data miningu. Na konci práce jsou prodiskutovány výsledky analýzy a na závěr je shrnutá celá práce. |
Klíčová slova: | Data mining; web scraping; realitní trh; explorační analýza |
Název práce: | Use of data mining for analysis of the Czech real estate market |
---|---|
Autor(ka) práce: | Tsakunov, Ilya |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Chudán, David |
Oponenti práce: | Berka, Petr |
Jazyk práce: | Česky |
Abstrakt: | The aim of this bachelor thesis is to obtain data from the Czech real estate portal using web scraping and then analyze this data using exploratory analysis and selected data mining methods in order to find interesting relationships. The thesis is divided into theoretical and practical part. The theoretical part primarily represents the area of data mining, including the description of the necessary concepts, selected methods and ways of its evaluation. In addition, popular data mining methodologies are described, in particular, attention is paid to the CRISP-DM methodology. Then the technology of web scraping, its principles, existing solutions, and also the ethical aspect are described. The practical part begins with the introduction of the tools that were used during the analysis. Then it contains a brief introduction to the domain area of real estate. This is followed by a description of data collection from the real estate portal website, including API search and script creation in Python. The obtained dataset is further pre-processed in the Jupyter notebook environment. The resulting data is first analyzed using exploratory analysis. Then follows the analysis using classification, regression and descriptive methods of data mining. At the end of the thesis, the results of the analysis are discussed, and in conclusion the whole thesis is summarized. |
Klíčová slova: | Data mining; web scraping; real estate market; exploratory analysis |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Aplikovaná informatika |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 3. 11. 2021 |
---|---|
Datum podání práce: | 9. 5. 2022 |
Datum obhajoby: | 23. 6. 2022 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/78632/podrobnosti |