No-code webscraping with platform Make.com and its use with RAG database

Thesis title: No-code webscraping pomocí platformy Make.com a jeho využití s RAG databází
Author: Nguyen, Dinh Hoang
Thesis type: Bakalářská práce
Supervisor: Korčák, Jiří
Opponents: Novák, Richard Antonín
Thesis language: Česky
Abstract:
Tato bakalářská práce se zabývá využitím automatizační platformy Make.com pro webscraping, uložením získaných dat do RAG databáze a následnou integrací s chatbotem využívající velké jazykové modely (LLM). Cílem práce je ověřit efektivitu tohoto no-code přístupu a změřit kvalitu generovaných odpovědí s využitím RAG databáze i bez ní. V teoretické části jsou popsány principy webscrapingu, automatizačních platforem a modelů RAG, včetně možností uložení dat pomocí vektorových databází jako Pinecone. Dále je rozebráno fungování velkých jazykových modelů a metrik pro měření relevance odpovědí, jako jsou BLEU, METEOR, RAGAS a BERTScore. Praktická část se zaměřuje na návrh a implementaci systému, který automatizuje získávání herních dat z vybraných zdrojů (např. Steam API, IGDB) pomocí Make.com. Tato data jsou následně uložena do RAG databáze a využita chatbotem k odpovědím na dotazy uživatelů. Výsledky experimentu jsou analyzovány na základě testovacích dotazů, přičemž je porovnávána kvalita odpovědí generovaných s RAG a bez něj. Výsledky práce poskytují ucelený pohled na možnosti využití no-code přístupu k webscrapingu a RAG databázím. Ukazují, do jaké míry tento přístup zlepšuje relevanci generovaných odpovědí a jaké jsou jeho limity při integraci s LLM.
Keywords: herní data; chatbot; velké jazykové modely; RAG databáze; vektorové databáze; webscraping; Make.com
Thesis title: No-code webscraping with platform Make.com and its use with RAG database
Author: Nguyen, Dinh Hoang
Thesis type: Bachelor thesis
Supervisor: Korčák, Jiří
Opponents: Novák, Richard Antonín
Thesis language: Česky
Abstract:
This bachelor's thesis focuses on utilizing the Make.com automation platform for web scraping, storing extracted data in a RAG database, and integrating it with a chatbot powered by large language models (LLM). The goal is to evaluate the effectiveness of this no-code approach and measure the quality of generated responses using a RAG database compared to responses without it. The theoretical part explores the principles of web scraping, automation platforms, and RAG models, including data storage options using vector databases like Pinecone. It also examines the workings of large language models and metrics for evaluating response relevance, such as BLEU, METEOR, RAGAS, and BERTScore. The practical part focuses on designing and implementing a system that automates the retrieval of gaming data from selected sources (e.g., Steam API, IGDB) using Make.com. The collected data is stored in a RAG database and used by a chatbot to respond to user queries. The results of the experiment are analyzed based on test queries, comparing the quality of responses generated with and without RAG. The findings of this work provide a comprehensive insight into the potential of a no-code approach to web scraping and RAG databases. They demonstrate the extent to which this approach improves response relevance and its limitations when integrated with LLM.
Keywords: web scraping; Make.com; RAG database; vector databases; gaming data; large language models; chatbot

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Systems Analysis

Information on submission and defense

Date of assignment: 31. 1. 2025
Date of submission: 12. 5. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: