Enhancing E-Commerce Recommendations with Machine Learning and Graph Databases

Thesis title: Enhancing E-Commerce Recommendations with Machine Learning and Graph Databases
Author: Melnychenko, Hlib
Thesis type: Diploma thesis
Supervisor: Feuerlicht, Jiří
Opponents: Potančok, Martin
Thesis language: English
Abstract:
This thesis tackles the critical challenge of delivering relevant product recommendations in e-commerce environments where data sparsity and "Cold-Start" users (those with no history) render traditional algorithms ineffective. To solve this, the work proposes and implements a novel Inductive Hybrid Recommendation System. This architecture uniquely combines structural learning with deep semantic understanding, utilizing GraphSAGE—an inductive Graph Neural Network—to model complex user-item relationships, and Sentence-BERT (SBERT) to generate rich semantic embeddings from unstructured product text. These features are synthesized by a supervised XGBoost Ranker, optimized for a Pairwise Ranking objective to ensure high-quality list ordering. Evaluated on a large-scale Amazon Reviews dataset using a strict chronological split to prevent data leakage, the hybrid model demonstrated superior robustness. While a traditional Content-Based Baseline failed completely for new users (0% success), the Hybrid model achieved a 15% Hit Rate for cold-start users, effectively solving the zero-start problem. Simultaneously, it outperformed the baseline for established users with an 84.6% improvement in ranking quality (nDCG). Beyond quantitative success, the system leverages the Neo4j graph database to visualize decision pathways, providing interpretability and trust in the recommendations. The thesis concludes by outlining a deployment roadmap and proposing future enhancements such as Multi-Modal Feature Fusion using CLIP to integrate visual data for even richer discovery.
Keywords: Recommender systems; SBERT; Graph neural network; Graph SAGE; XGBoost
Thesis title: Vylepšení doporučování v e-commerce pomocí strojového učení a grafových databází
Author: Melnychenko, Hlib
Thesis type: Diplomová práce
Supervisor: Feuerlicht, Jiří
Opponents: Potančok, Martin
Thesis language: English
Abstract:
Tato diplomová práce se zabývá kritickou výzvou v oblasti e-commerce: poskytováním relevantních doporučení produktů v dynamickém prostředí, kde řídkost dat a uživatelé s tzv. studeným startem (Cold-Start) – tedy ti bez historie interakcí – činí tradiční algoritmy neefektivními. K vyřešení tohoto problému práce navrhuje a implementuje nový Induktivní hybridní doporučovací systém. Tato architektura unikátním způsobem kombinuje strukturální učení s hlubokým sémantickým porozuměním. Využívá GraphSAGE – induktivní grafovou neurální síť – k modelování složitých vztahů mezi uživateli a položkami, a model Sentence-BERT (SBERT) ke generování bohatých sémantických embeddingů z nestrukturovaného textu produktů. Tyto příznaky jsou následně syntetizovány pomocí supervizovaného modelu XGBoost Ranker, který je optimalizován pro úlohu párového řazení (Pairwise Ranking), což zajišťuje vysokou kvalitu uspořádání finálního seznamu doporučení. Model byl vyhodnocen na rozsáhlém datasetu Amazon Reviews s využitím striktního chronologického rozdělení dat, aby se zabránilo úniku informací z budoucnosti (data leakage). Hybridní model prokázal vynikající robustnost. Zatímco tradiční Content-Based Baseline u nových uživatelů zcela selhal (0% úspěšnost), hybridní model dosáhl 15% Hit Rate u uživatelů se studeným startem, čímž efektivně vyřešil problém nulové historie. Zároveň překonal referenční model i u etablovaných uživatelů, kde dosáhl zlepšení kvality řazení (nDCG) o 84,6 %. Kromě kvantitativních výsledků systém využívá grafovou databázi Neo4j k vizualizaci rozhodovacích cest modelu, což zajišťuje interpretovatelnost a zvyšuje důvěru v poskytovaná doporučení. Práce je zakončena návrhem strategie nasazení a nastíněním budoucích vylepšení, jako je využití Multi-Modal Feature Fusion s modelem CLIP pro integraci vizuálních dat a ještě efektivnější objevování produktů.
Keywords: SBERT; Doporučovací systémy; Graph SAGE; Grafové neuronové sítě; XGBoost

Information about study

Study programme: Data a analytika pro business
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 10. 3. 2025
Date of submission: 1. 12. 2025
Date of defense: 19. 1. 2026
Identifier in the InSIS system: https://insis.vse.cz/zp/91857/podrobnosti

Files for download

    Last update: