AI-powered competitive website search system

Thesis title: Systém pro vyhledávání konkurenčních webových stránek za využití AI
Author: Dao, Sinh Duc
Thesis type: Bakalářská práce
Supervisor: Vojíř, Stanislav
Opponents: Nguyen, Viet Bach
Thesis language: Česky
Abstract:
Cílem této bakalářské práce je navrhnout a vytvořit vyhledávač konkurenčních webových stránek za pomoci velkých jazykových modelů. Jejím hlavním cílem je umožnit firmám vyhledat podobné webové stránky k zadané URL adrese. Práce se nejprve zabývá rešerší webových stránek, analýze klíčových slov a vyhledávačů. Dále se podrobně vysvětluje, co jsou velké jazykové modely a web scraping, a provede se analýza jejich modelů a nástrojů. Před implementací programu se navrhnou funkcionality a zanalyzují se jejich možné problémy a požadavky. V implementační části se jednotlivé funkcionality naprogramují, přičemž výsledkem práce je program, který přijme vstup od uživatele ve formě URL adresy a pomocí web scrapingu, velkých jazykových modelů, Google API a kosinové míry podobnosti se pokusí vyhledat podobné webové stránky k zadané webové stránce. Na závěr se program otestuje a vyhodnotí.
Keywords: extrakce klíčových slov; velké jazykové modely; vyhledávání; vyhledávače; webové stránky; web scraping; Python; Selenium
Thesis title: AI-powered competitive website search system
Author: Dao, Sinh Duc
Thesis type: Bachelor thesis
Supervisor: Vojíř, Stanislav
Opponents: Nguyen, Viet Bach
Thesis language: Česky
Abstract:
The aim of this bachelor thesis is to design and build a search engine for competing websites using large language models. It's main goal is to allow companies to find similar websites to a given URL. The thesis firstly does a research on topics website search, keyword and search engine analysis. Next, it explains in detail what big language models and web scraping are and performs an analysis of their models and tools. Before implementation, functionalities are designed and their possible problems and requirements are analyzed. In the implementation part, the functionalities are programmed and the result is a program that accepts input from a user in the form of a URL and attempts to find similar web pages to the specified web page using web scraping, large language models, Google API and cosine similarity measure. Finally, the program is tested and evaluated.
Keywords: searching; search engines; web pages; large language models; Python; Selenium; keyword extraction; web scraping

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 12. 2. 2024
Date of submission: 9. 12. 2024
Date of defense: 2024

Files for download

The files will be available after the defense of the thesis.

    Last update: