Vylepšení doporučování v e-commerce pomocí strojového učení a grafových databází

Název práce: Enhancing E-Commerce Recommendations with Machine Learning and Graph Databases
Autor(ka) práce: Melnychenko, Hlib
Typ práce: Diploma thesis
Vedoucí práce: Feuerlicht, Jiří
Oponenti práce: Potančok, Martin
Jazyk práce: English
Abstrakt:
This thesis tackles the critical challenge of delivering relevant product recommendations in e-commerce environments where data sparsity and "Cold-Start" users (those with no history) render traditional algorithms ineffective. To solve this, the work proposes and implements a novel Inductive Hybrid Recommendation System. This architecture uniquely combines structural learning with deep semantic understanding, utilizing GraphSAGE—an inductive Graph Neural Network—to model complex user-item relationships, and Sentence-BERT (SBERT) to generate rich semantic embeddings from unstructured product text. These features are synthesized by a supervised XGBoost Ranker, optimized for a Pairwise Ranking objective to ensure high-quality list ordering. Evaluated on a large-scale Amazon Reviews dataset using a strict chronological split to prevent data leakage, the hybrid model demonstrated superior robustness. While a traditional Content-Based Baseline failed completely for new users (0% success), the Hybrid model achieved a 15% Hit Rate for cold-start users, effectively solving the zero-start problem. Simultaneously, it outperformed the baseline for established users with an 84.6% improvement in ranking quality (nDCG). Beyond quantitative success, the system leverages the Neo4j graph database to visualize decision pathways, providing interpretability and trust in the recommendations. The thesis concludes by outlining a deployment roadmap and proposing future enhancements such as Multi-Modal Feature Fusion using CLIP to integrate visual data for even richer discovery.
Klíčová slova: Recommender systems; SBERT; Graph neural network; Graph SAGE; XGBoost
Název práce: Vylepšení doporučování v e-commerce pomocí strojového učení a grafových databází
Autor(ka) práce: Melnychenko, Hlib
Typ práce: Diplomová práce
Vedoucí práce: Feuerlicht, Jiří
Oponenti práce: Potančok, Martin
Jazyk práce: English
Abstrakt:
Tato diplomová práce se zabývá kritickou výzvou v oblasti e-commerce: poskytováním relevantních doporučení produktů v dynamickém prostředí, kde řídkost dat a uživatelé s tzv. studeným startem (Cold-Start) – tedy ti bez historie interakcí – činí tradiční algoritmy neefektivními. K vyřešení tohoto problému práce navrhuje a implementuje nový Induktivní hybridní doporučovací systém. Tato architektura unikátním způsobem kombinuje strukturální učení s hlubokým sémantickým porozuměním. Využívá GraphSAGE – induktivní grafovou neurální síť – k modelování složitých vztahů mezi uživateli a položkami, a model Sentence-BERT (SBERT) ke generování bohatých sémantických embeddingů z nestrukturovaného textu produktů. Tyto příznaky jsou následně syntetizovány pomocí supervizovaného modelu XGBoost Ranker, který je optimalizován pro úlohu párového řazení (Pairwise Ranking), což zajišťuje vysokou kvalitu uspořádání finálního seznamu doporučení. Model byl vyhodnocen na rozsáhlém datasetu Amazon Reviews s využitím striktního chronologického rozdělení dat, aby se zabránilo úniku informací z budoucnosti (data leakage). Hybridní model prokázal vynikající robustnost. Zatímco tradiční Content-Based Baseline u nových uživatelů zcela selhal (0% úspěšnost), hybridní model dosáhl 15% Hit Rate u uživatelů se studeným startem, čímž efektivně vyřešil problém nulové historie. Zároveň překonal referenční model i u etablovaných uživatelů, kde dosáhl zlepšení kvality řazení (nDCG) o 84,6 %. Kromě kvantitativních výsledků systém využívá grafovou databázi Neo4j k vizualizaci rozhodovacích cest modelu, což zajišťuje interpretovatelnost a zvyšuje důvěru v poskytovaná doporučení. Práce je zakončena návrhem strategie nasazení a nastíněním budoucích vylepšení, jako je využití Multi-Modal Feature Fusion s modelem CLIP pro integraci vizuálních dat a ještě efektivnější objevování produktů.
Klíčová slova: SBERT; Doporučovací systémy; Graph SAGE; Grafové neuronové sítě; XGBoost

Informace o studiu

Studijní program / obor: Data a analytika pro business
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 10. 3. 2025
Datum podání práce: 1. 12. 2025
Datum obhajoby: 19. 1. 2026
Identifikátor v systému InSIS: https://insis.vse.cz/zp/91857/podrobnosti

Soubory ke stažení

    Poslední aktualizace: