Knowledge Discovery in Databases on Data from the Market of Used and Stock BMW Vehicles
Thesis title: | Dobývání znalostí z databází na datech z trhu ojetých a skladových automobilů značky BMW |
---|---|
Author: | Shmuliak, Ivan |
Thesis type: | Bakalářská práce |
Supervisor: | Chudán, David |
Opponents: | Berka, Petr |
Thesis language: | Česky |
Abstract: | Bakalářská práce se zabývá aplikací metodiky CRISP-DM na data z českého trhu ojetých a skladových vozidel značky BMW s cílem identifikovat faktory ovlivňující cenotvorbu. Data byla získána pomocí nástroje Scrapy z portálu TipCars a následně podrobena procesu čištění, transformace a analýzy. Explorační analýza přinesla přehled o nabízených modelech, technických vlastnostech vozidel a jejich geografickém rozložení. V analytické fázi byl aplikován regresní model náhodného lesa, který dosáhl přijatelné predikční přesnosti a vyzdvihl jako klíčové prediktory rok registrace, výkon a objem motoru. Metoda shlukování DBSCAN odhalila přirozené skupiny vozidel podle technických parametrů, přičemž některé odpovídaly sportovním verzím, jiné běžným modelům či elektromobilům. Výsledky práce lze využít pro podporu rozhodování v oblasti sekundárního trhu s automobily. Mezi omezení výzkumu patří subjektivní hodnocení technického stavu, absence údajů o výbavě a nerovnoměrné zastoupení kategorií. |
Keywords: | sběr dat; Python; BMW; CRISP-DM; DZD; shlukování; explorační datová analýza |
Thesis title: | Knowledge Discovery in Databases on Data from the Market of Used and Stock BMW Vehicles |
---|---|
Author: | Shmuliak, Ivan |
Thesis type: | Bachelor thesis |
Supervisor: | Chudán, David |
Opponents: | Berka, Petr |
Thesis language: | Česky |
Abstract: | The bachelor's thesis deals with the application of the CRISP-DM methodology to data from the Czech market of used and stock BMW vehicles, with the aim of identifying factors influencing pricing. The data were obtained using the Scrapy tool from the TipCars portal and subsequently subjected to a process of cleaning, transformation, and analysis. Exploratory analysis provided an overview of the offered models, technical characteristics of the vehicles, and their geographical distribution. In the analytical phase, a Random Forest Regression model was applied, which achieved acceptable prediction accuracy and highlighted the year of registration, power, and engine capacity as key predictors. The DBSCAN clustering method revealed natural groups of vehicles based on technical parameters, with some corresponding to sports versions, others to regular models or electric cars. The results of the work can be used to support decision-making in the secondary car market. The limitations of the research include subjective assessment of technical condition, absence of equipment data and uneven representation of categories. |
Keywords: | CRISP-DM; KDD; Python; data scraping; exploratory data analysis; BMW; clustering |
Information about study
Study programme: | Aplikovaná informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 18. 9. 2024 |
---|---|
Date of submission: | 12. 5. 2025 |
Date of defense: | 24. 6. 2025 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/89396/podrobnosti |