Thesis title: |
No-code webscraping pomocí platformy Make.com a jeho využití s RAG databází |
Author: |
Nguyen, Dinh Hoang |
Thesis type: |
Bakalářská práce |
Supervisor: |
Korčák, Jiří |
Opponents: |
Novák, Richard Antonín |
Thesis language: |
Česky |
Abstract: |
Tato bakalářská práce se zabývá využitím automatizační platformy Make.com pro webscraping, uložením získaných dat do RAG databáze a následnou integrací s chatbotem využívající velké jazykové modely (LLM). Cílem práce je ověřit efektivitu tohoto no-code přístupu a změřit kvalitu generovaných odpovědí s využitím RAG databáze i bez ní. V teoretické části jsou popsány principy webscrapingu, automatizačních platforem a modelů RAG, včetně možností uložení dat pomocí vektorových databází jako Pinecone. Dále je rozebráno fungování velkých jazykových modelů a metrik pro měření relevance odpovědí, jako jsou BLEU, METEOR, RAGAS a BERTScore. Praktická část se zaměřuje na návrh a implementaci systému, který automatizuje získávání herních dat z vybraných zdrojů (např. Steam API, IGDB) pomocí Make.com. Tato data jsou následně uložena do RAG databáze a využita chatbotem k odpovědím na dotazy uživatelů. Výsledky experimentu jsou analyzovány na základě testovacích dotazů, přičemž je porovnávána kvalita odpovědí generovaných s RAG a bez něj. Výsledky práce poskytují ucelený pohled na možnosti využití no-code přístupu k webscrapingu a RAG databázím. Ukazují, do jaké míry tento přístup zlepšuje relevanci generovaných odpovědí a jaké jsou jeho limity při integraci s LLM. |
Keywords: |
herní data; chatbot; velké jazykové modely; RAG databáze; vektorové databáze; webscraping; Make.com |
Thesis title: |
No-code webscraping with platform Make.com and its use with RAG database |
Author: |
Nguyen, Dinh Hoang |
Thesis type: |
Bachelor thesis |
Supervisor: |
Korčák, Jiří |
Opponents: |
Novák, Richard Antonín |
Thesis language: |
Česky |
Abstract: |
This bachelor's thesis focuses on utilizing the Make.com automation platform for web scraping, storing extracted data in a RAG database, and integrating it with a chatbot powered by large language models (LLM). The goal is to evaluate the effectiveness of this no-code approach and measure the quality of generated responses using a RAG database compared to responses without it. The theoretical part explores the principles of web scraping, automation platforms, and RAG models, including data storage options using vector databases like Pinecone. It also examines the workings of large language models and metrics for evaluating response relevance, such as BLEU, METEOR, RAGAS, and BERTScore. The practical part focuses on designing and implementing a system that automates the retrieval of gaming data from selected sources (e.g., Steam API, IGDB) using Make.com. The collected data is stored in a RAG database and used by a chatbot to respond to user queries. The results of the experiment are analyzed based on test queries, comparing the quality of responses generated with and without RAG. The findings of this work provide a comprehensive insight into the potential of a no-code approach to web scraping and RAG databases. They demonstrate the extent to which this approach improves response relevance and its limitations when integrated with LLM. |
Keywords: |
web scraping; Make.com; RAG database; vector databases; gaming data; large language models; chatbot |
Information about study
Study programme: |
Aplikovaná informatika |
Type of study programme: |
Bakalářský studijní program |
Assigned degree: |
Bc. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Informatics and Statistics |
Department: |
Department of Systems Analysis |
Information on submission and defense
Date of assignment: |
31. 1. 2025 |
Date of submission: |
12. 5. 2025 |
Date of defense: |
2025 |
Files for download
The files will be available after the defense of the thesis.