No-code webscraping pomocí platformy Make.com a jeho využití s RAG databází
Autor(ka) práce:
Nguyen, Dinh Hoang
Typ práce:
Bakalářská práce
Vedoucí práce:
Korčák, Jiří
Oponenti práce:
Novák, Richard Antonín
Jazyk práce:
Česky
Abstrakt:
Tato bakalářská práce se zabývá využitím automatizační platformy Make.com pro webscraping, uložením získaných dat do RAG databáze a následnou integrací s chatbotem využívající velké jazykové modely (LLM). Cílem práce je ověřit efektivitu tohoto no-code přístupu a změřit kvalitu generovaných odpovědí s využitím RAG databáze i bez ní. V teoretické části jsou popsány principy webscrapingu, automatizačních platforem a modelů RAG, včetně možností uložení dat pomocí vektorových databází jako Pinecone. Dále je rozebráno fungování velkých jazykových modelů a metrik pro měření relevance odpovědí, jako jsou BLEU, METEOR, RAGAS a BERTScore. Praktická část se zaměřuje na návrh a implementaci systému, který automatizuje získávání herních dat z vybraných zdrojů (např. Steam API, IGDB) pomocí Make.com. Tato data jsou následně uložena do RAG databáze a využita chatbotem k odpovědím na dotazy uživatelů. Výsledky experimentu jsou analyzovány na základě testovacích dotazů, přičemž je porovnávána kvalita odpovědí generovaných s RAG a bez něj. Výsledky práce poskytují ucelený pohled na možnosti využití no-code přístupu k webscrapingu a RAG databázím. Ukazují, do jaké míry tento přístup zlepšuje relevanci generovaných odpovědí a jaké jsou jeho limity při integraci s LLM.
No-code webscraping with platform Make.com and its use with RAG database
Autor(ka) práce:
Nguyen, Dinh Hoang
Typ práce:
Bachelor thesis
Vedoucí práce:
Korčák, Jiří
Oponenti práce:
Novák, Richard Antonín
Jazyk práce:
Česky
Abstrakt:
This bachelor's thesis focuses on utilizing the Make.com automation platform for web scraping, storing extracted data in a RAG database, and integrating it with a chatbot powered by large language models (LLM). The goal is to evaluate the effectiveness of this no-code approach and measure the quality of generated responses using a RAG database compared to responses without it. The theoretical part explores the principles of web scraping, automation platforms, and RAG models, including data storage options using vector databases like Pinecone. It also examines the workings of large language models and metrics for evaluating response relevance, such as BLEU, METEOR, RAGAS, and BERTScore. The practical part focuses on designing and implementing a system that automates the retrieval of gaming data from selected sources (e.g., Steam API, IGDB) using Make.com. The collected data is stored in a RAG database and used by a chatbot to respond to user queries. The results of the experiment are analyzed based on test queries, comparing the quality of responses generated with and without RAG. The findings of this work provide a comprehensive insight into the potential of a no-code approach to web scraping and RAG databases. They demonstrate the extent to which this approach improves response relevance and its limitations when integrated with LLM.
Klíčová slova:
web scraping; Make.com; RAG database; vector databases; gaming data; large language models; chatbot