Enhancing E-Commerce Recommendations with Machine Learning and Graph Databases
| Thesis title: | Enhancing E-Commerce Recommendations with Machine Learning and Graph Databases |
|---|---|
| Author: | Melnychenko, Hlib |
| Thesis type: | Diploma thesis |
| Supervisor: | Feuerlicht, Jiří |
| Opponents: | Potančok, Martin |
| Thesis language: | English |
| Abstract: | This thesis tackles the critical challenge of delivering relevant product recommendations in e-commerce environments where data sparsity and "Cold-Start" users (those with no history) render traditional algorithms ineffective. To solve this, the work proposes and implements a novel Inductive Hybrid Recommendation System. This architecture uniquely combines structural learning with deep semantic understanding, utilizing GraphSAGE—an inductive Graph Neural Network—to model complex user-item relationships, and Sentence-BERT (SBERT) to generate rich semantic embeddings from unstructured product text. These features are synthesized by a supervised XGBoost Ranker, optimized for a Pairwise Ranking objective to ensure high-quality list ordering. Evaluated on a large-scale Amazon Reviews dataset using a strict chronological split to prevent data leakage, the hybrid model demonstrated superior robustness. While a traditional Content-Based Baseline failed completely for new users (0% success), the Hybrid model achieved a 15% Hit Rate for cold-start users, effectively solving the zero-start problem. Simultaneously, it outperformed the baseline for established users with an 84.6% improvement in ranking quality (nDCG). Beyond quantitative success, the system leverages the Neo4j graph database to visualize decision pathways, providing interpretability and trust in the recommendations. The thesis concludes by outlining a deployment roadmap and proposing future enhancements such as Multi-Modal Feature Fusion using CLIP to integrate visual data for even richer discovery. |
| Keywords: | Recommender systems; SBERT; Graph neural network; Graph SAGE; XGBoost |
| Thesis title: | Vylepšení doporučování v e-commerce pomocí strojového učení a grafových databází |
|---|---|
| Author: | Melnychenko, Hlib |
| Thesis type: | Diplomová práce |
| Supervisor: | Feuerlicht, Jiří |
| Opponents: | Potančok, Martin |
| Thesis language: | English |
| Abstract: | Tato diplomová práce se zabývá kritickou výzvou v oblasti e-commerce: poskytováním relevantních doporučení produktů v dynamickém prostředí, kde řídkost dat a uživatelé s tzv. studeným startem (Cold-Start) – tedy ti bez historie interakcí – činí tradiční algoritmy neefektivními. K vyřešení tohoto problému práce navrhuje a implementuje nový Induktivní hybridní doporučovací systém. Tato architektura unikátním způsobem kombinuje strukturální učení s hlubokým sémantickým porozuměním. Využívá GraphSAGE – induktivní grafovou neurální síť – k modelování složitých vztahů mezi uživateli a položkami, a model Sentence-BERT (SBERT) ke generování bohatých sémantických embeddingů z nestrukturovaného textu produktů. Tyto příznaky jsou následně syntetizovány pomocí supervizovaného modelu XGBoost Ranker, který je optimalizován pro úlohu párového řazení (Pairwise Ranking), což zajišťuje vysokou kvalitu uspořádání finálního seznamu doporučení. Model byl vyhodnocen na rozsáhlém datasetu Amazon Reviews s využitím striktního chronologického rozdělení dat, aby se zabránilo úniku informací z budoucnosti (data leakage). Hybridní model prokázal vynikající robustnost. Zatímco tradiční Content-Based Baseline u nových uživatelů zcela selhal (0% úspěšnost), hybridní model dosáhl 15% Hit Rate u uživatelů se studeným startem, čímž efektivně vyřešil problém nulové historie. Zároveň překonal referenční model i u etablovaných uživatelů, kde dosáhl zlepšení kvality řazení (nDCG) o 84,6 %. Kromě kvantitativních výsledků systém využívá grafovou databázi Neo4j k vizualizaci rozhodovacích cest modelu, což zajišťuje interpretovatelnost a zvyšuje důvěru v poskytovaná doporučení. Práce je zakončena návrhem strategie nasazení a nastíněním budoucích vylepšení, jako je využití Multi-Modal Feature Fusion s modelem CLIP pro integraci vizuálních dat a ještě efektivnější objevování produktů. |
| Keywords: | SBERT; Doporučovací systémy; Graph SAGE; Grafové neuronové sítě; XGBoost |
Information about study
| Study programme: | Data a analytika pro business |
|---|---|
| Type of study programme: | Magisterský studijní program |
| Assigned degree: | Ing. |
| Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
| Faculty: | Faculty of Informatics and Statistics |
| Department: | Department of Information Technologies |
Information on submission and defense
| Date of assignment: | 10. 3. 2025 |
|---|---|
| Date of submission: | 1. 12. 2025 |
| Date of defense: | 19. 1. 2026 |
| Identifier in the InSIS system: | https://insis.vse.cz/zp/91857/podrobnosti |