Analysis of the Prague used car market using data mining methods

Thesis title: Analýza pražského trhu ojetých aut využitím metod data miningu
Author: Adayev, Adilkhan
Thesis type: Bakalářská práce
Supervisor: Chudán, David
Opponents: Strnad, Pavel
Thesis language: Česky
Abstract:
Cílem této bakalářské práce je získání dat pomocí technologie web scrapingu a následná analýza těchto dat s využitím explorační analýzy a data mining technik pro identifikaci zajímavých vzorů a trendů na pražském trhu s ojetými automobily. Práce se dělí na teoretickou a praktickou část. V teoretické části je podrobně představena oblast data miningu, včetně popisu základních pojmů, vybraných metod, jejich aplikace a způsobů hodnocení. Dále je popsána metodika CRISP-DM, která poskytuje rámec pro řízení data miningových projektů a bude použita v praktické části práce. Následně je pozornost zaměřena na technologii web scrapingu, její principy, nástroje a etické aspekty spojené s touto oblastí. V praktické části je detailně popsán proces získávání dat z online autobazaru tipcars.com pomocí web scrapingu a jejich předzpracování s využitím Excelu a Pythonu. Na základě těchto předzpracovaných dat je provedena důkladná explorační analýza, která následně umožní vytvoření modelů, včetně regresního modelu a shlukové analýzy. V rámci regresního modelování jsou vytvořeny dva modely, jeden založený na číselných atributech a druhý kombinující číselné a kategorické atributy. Shluková analýza zahrnuje identifikaci čtyř shluků, které jsou následně vizualizovány prostřednictvím grafů. Před závěrem práce jsou diskutovány dosažené výsledky a zjištěné poznatky. V závěru je shrnutí celé práce a její důležité aspekty.
Keywords: autobazar; data mining; web scraping; CRISP-DM; explorační analýza; předzpracování dat
Thesis title: Analysis of the Prague used car market using data mining methods
Author: Adayev, Adilkhan
Thesis type: Bachelor thesis
Supervisor: Chudán, David
Opponents: Strnad, Pavel
Thesis language: Česky
Abstract:
This bachelor's thesis aims to obtain data using web scraping technology and subsequent analysis of this data using exploratory analysis and data mining techniques to identify interesting patterns and trends in the Prague used car market. The work is divided into theoretical and practical parts. In the theoretical part, the field of data mining is introduced in detail, including the description of basic concepts, selected methods, their application, and evaluation methods. The CRISP-DM methodology is then described, which provides a framework for managing data mining projects and will be used in the practical part of the work. Subsequently, attention is focused on web scraping technology, its principles, tools, and ethical aspects associated with this area. In the practical part, the process of obtaining data from the online used car market tipcars.com using web scraping and their preprocessing using Excel and Python is described in detail. Based on this preprocessed data, a thorough exploratory analysis is conducted, which subsequently allows the creation of models, including a regression model and cluster analysis. Within the regression modeling, two models are created, one based on numerical attributes and the other combining numerical and categorical attributes. The cluster analysis involves the identification of four clusters, which are subsequently visualized using graphs. Before the conclusion of the work, the achieved results and findings are discussed. The conclusion contains a summary of the entire work and its important aspects.
Keywords: web scraping; CRISP-DM; data preprocessing; used car market; data mining; exploratory analysis

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 21. 2. 2023
Date of submission: 8. 5. 2023
Date of defense: 12. 6. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/84423/podrobnosti

Files for download

    Last update: