Analýza pražského trhu ojetých aut využitím metod data miningu

Název práce: Analýza pražského trhu ojetých aut využitím metod data miningu
Autor(ka) práce: Adayev, Adilkhan
Typ práce: Bakalářská práce
Vedoucí práce: Chudán, David
Oponenti práce: Strnad, Pavel
Jazyk práce: Česky
Abstrakt:
Cílem této bakalářské práce je získání dat pomocí technologie web scrapingu a následná analýza těchto dat s využitím explorační analýzy a data mining technik pro identifikaci zajímavých vzorů a trendů na pražském trhu s ojetými automobily. Práce se dělí na teoretickou a praktickou část. V teoretické části je podrobně představena oblast data miningu, včetně popisu základních pojmů, vybraných metod, jejich aplikace a způsobů hodnocení. Dále je popsána metodika CRISP-DM, která poskytuje rámec pro řízení data miningových projektů a bude použita v praktické části práce. Následně je pozornost zaměřena na technologii web scrapingu, její principy, nástroje a etické aspekty spojené s touto oblastí. V praktické části je detailně popsán proces získávání dat z online autobazaru tipcars.com pomocí web scrapingu a jejich předzpracování s využitím Excelu a Pythonu. Na základě těchto předzpracovaných dat je provedena důkladná explorační analýza, která následně umožní vytvoření modelů, včetně regresního modelu a shlukové analýzy. V rámci regresního modelování jsou vytvořeny dva modely, jeden založený na číselných atributech a druhý kombinující číselné a kategorické atributy. Shluková analýza zahrnuje identifikaci čtyř shluků, které jsou následně vizualizovány prostřednictvím grafů. Před závěrem práce jsou diskutovány dosažené výsledky a zjištěné poznatky. V závěru je shrnutí celé práce a její důležité aspekty.
Klíčová slova: autobazar; data mining; web scraping; CRISP-DM; explorační analýza; předzpracování dat
Název práce: Analysis of the Prague used car market using data mining methods
Autor(ka) práce: Adayev, Adilkhan
Typ práce: Bachelor thesis
Vedoucí práce: Chudán, David
Oponenti práce: Strnad, Pavel
Jazyk práce: Česky
Abstrakt:
This bachelor's thesis aims to obtain data using web scraping technology and subsequent analysis of this data using exploratory analysis and data mining techniques to identify interesting patterns and trends in the Prague used car market. The work is divided into theoretical and practical parts. In the theoretical part, the field of data mining is introduced in detail, including the description of basic concepts, selected methods, their application, and evaluation methods. The CRISP-DM methodology is then described, which provides a framework for managing data mining projects and will be used in the practical part of the work. Subsequently, attention is focused on web scraping technology, its principles, tools, and ethical aspects associated with this area. In the practical part, the process of obtaining data from the online used car market tipcars.com using web scraping and their preprocessing using Excel and Python is described in detail. Based on this preprocessed data, a thorough exploratory analysis is conducted, which subsequently allows the creation of models, including a regression model and cluster analysis. Within the regression modeling, two models are created, one based on numerical attributes and the other combining numerical and categorical attributes. The cluster analysis involves the identification of four clusters, which are subsequently visualized using graphs. Before the conclusion of the work, the achieved results and findings are discussed. The conclusion contains a summary of the entire work and its important aspects.
Klíčová slova: web scraping; CRISP-DM; data preprocessing; used car market; data mining; exploratory analysis

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 21. 2. 2023
Datum podání práce: 8. 5. 2023
Datum obhajoby: 12. 6. 2023
Identifikátor v systému InSIS: https://insis.vse.cz/zp/84423/podrobnosti

Soubory ke stažení

    Poslední aktualizace: