Dobývání znalostí z databází na datech z trhu ojetých a skladových automobilů značky BMW

Název práce: Dobývání znalostí z databází na datech z trhu ojetých a skladových automobilů značky BMW
Autor(ka) práce: Shmuliak, Ivan
Typ práce: Bakalářská práce
Vedoucí práce: Chudán, David
Oponenti práce: Berka, Petr
Jazyk práce: Česky
Abstrakt:
Bakalářská práce se zabývá aplikací metodiky CRISP-DM na data z českého trhu ojetých a skladových vozidel značky BMW s cílem identifikovat faktory ovlivňující cenotvorbu. Data byla získána pomocí nástroje Scrapy z portálu TipCars a následně podrobena procesu čištění, transformace a analýzy. Explorační analýza přinesla přehled o nabízených modelech, technických vlastnostech vozidel a jejich geografickém rozložení. V analytické fázi byl aplikován regresní model náhodného lesa, který dosáhl přijatelné predikční přesnosti a vyzdvihl jako klíčové prediktory rok registrace, výkon a objem motoru. Metoda shlukování DBSCAN odhalila přirozené skupiny vozidel podle technických parametrů, přičemž některé odpovídaly sportovním verzím, jiné běžným modelům či elektromobilům. Výsledky práce lze využít pro podporu rozhodování v oblasti sekundárního trhu s automobily. Mezi omezení výzkumu patří subjektivní hodnocení technického stavu, absence údajů o výbavě a nerovnoměrné zastoupení kategorií.
Klíčová slova: sběr dat; Python; BMW; CRISP-DM; DZD; shlukování; explorační datová analýza
Název práce: Knowledge Discovery in Databases on Data from the Market of Used and Stock BMW Vehicles
Autor(ka) práce: Shmuliak, Ivan
Typ práce: Bachelor thesis
Vedoucí práce: Chudán, David
Oponenti práce: Berka, Petr
Jazyk práce: Česky
Abstrakt:
The bachelor's thesis deals with the application of the CRISP-DM methodology to data from the Czech market of used and stock BMW vehicles, with the aim of identifying factors influencing pricing. The data were obtained using the Scrapy tool from the TipCars portal and subsequently subjected to a process of cleaning, transformation, and analysis. Exploratory analysis provided an overview of the offered models, technical characteristics of the vehicles, and their geographical distribution. In the analytical phase, a Random Forest Regression model was applied, which achieved acceptable prediction accuracy and highlighted the year of registration, power, and engine capacity as key predictors. The DBSCAN clustering method revealed natural groups of vehicles based on technical parameters, with some corresponding to sports versions, others to regular models or electric cars. The results of the work can be used to support decision-making in the secondary car market. The limitations of the research include subjective assessment of technical condition, absence of equipment data and uneven representation of categories.
Klíčová slova: CRISP-DM; KDD; Python; data scraping; exploratory data analysis; BMW; clustering

Informace o studiu

Studijní program / obor: Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 18. 9. 2024
Datum podání práce: 12. 5. 2025
Datum obhajoby: 24. 6. 2025
Identifikátor v systému InSIS: https://insis.vse.cz/zp/89396/podrobnosti

Soubory ke stažení

    Poslední aktualizace: