Knowledge Discovery in Databases on Data from the Market of Used and Stock BMW Vehicles

Thesis title: Dobývání znalostí z databází na datech z trhu ojetých a skladových automobilů značky BMW
Author: Shmuliak, Ivan
Thesis type: Bakalářská práce
Supervisor: Chudán, David
Opponents: Berka, Petr
Thesis language: Česky
Abstract:
Bakalářská práce se zabývá aplikací metodiky CRISP-DM na data z českého trhu ojetých a skladových vozidel značky BMW s cílem identifikovat faktory ovlivňující cenotvorbu. Data byla získána pomocí nástroje Scrapy z portálu TipCars a následně podrobena procesu čištění, transformace a analýzy. Explorační analýza přinesla přehled o nabízených modelech, technických vlastnostech vozidel a jejich geografickém rozložení. V analytické fázi byl aplikován regresní model náhodného lesa, který dosáhl přijatelné predikční přesnosti a vyzdvihl jako klíčové prediktory rok registrace, výkon a objem motoru. Metoda shlukování DBSCAN odhalila přirozené skupiny vozidel podle technických parametrů, přičemž některé odpovídaly sportovním verzím, jiné běžným modelům či elektromobilům. Výsledky práce lze využít pro podporu rozhodování v oblasti sekundárního trhu s automobily. Mezi omezení výzkumu patří subjektivní hodnocení technického stavu, absence údajů o výbavě a nerovnoměrné zastoupení kategorií.
Keywords: sběr dat; Python; BMW; CRISP-DM; DZD; shlukování; explorační datová analýza
Thesis title: Knowledge Discovery in Databases on Data from the Market of Used and Stock BMW Vehicles
Author: Shmuliak, Ivan
Thesis type: Bachelor thesis
Supervisor: Chudán, David
Opponents: Berka, Petr
Thesis language: Česky
Abstract:
The bachelor's thesis deals with the application of the CRISP-DM methodology to data from the Czech market of used and stock BMW vehicles, with the aim of identifying factors influencing pricing. The data were obtained using the Scrapy tool from the TipCars portal and subsequently subjected to a process of cleaning, transformation, and analysis. Exploratory analysis provided an overview of the offered models, technical characteristics of the vehicles, and their geographical distribution. In the analytical phase, a Random Forest Regression model was applied, which achieved acceptable prediction accuracy and highlighted the year of registration, power, and engine capacity as key predictors. The DBSCAN clustering method revealed natural groups of vehicles based on technical parameters, with some corresponding to sports versions, others to regular models or electric cars. The results of the work can be used to support decision-making in the secondary car market. The limitations of the research include subjective assessment of technical condition, absence of equipment data and uneven representation of categories.
Keywords: CRISP-DM; KDD; Python; data scraping; exploratory data analysis; BMW; clustering

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 18. 9. 2024
Date of submission: 12. 5. 2025
Date of defense: 24. 6. 2025
Identifier in the InSIS system: https://insis.vse.cz/zp/89396/podrobnosti

Files for download

    Last update: