Thesis title: |
Systém pro vyhledávání konkurenčních webových stránek za využití AI |
Author: |
Dao, Sinh Duc |
Thesis type: |
Bakalářská práce |
Supervisor: |
Vojíř, Stanislav |
Opponents: |
Nguyen, Viet Bach |
Thesis language: |
Česky |
Abstract: |
Cílem této bakalářské práce je navrhnout a vytvořit vyhledávač konkurenčních webových stránek za pomoci velkých jazykových modelů. Jejím hlavním cílem je umožnit firmám vyhledat podobné webové stránky k zadané URL adrese. Práce se nejprve zabývá rešerší webových stránek, analýze klíčových slov a vyhledávačů. Dále se podrobně vysvětluje, co jsou velké jazykové modely a web scraping, a provede se analýza jejich modelů a nástrojů. Před implementací programu se navrhnou funkcionality a zanalyzují se jejich možné problémy a požadavky. V implementační části se jednotlivé funkcionality naprogramují, přičemž výsledkem práce je program, který přijme vstup od uživatele ve formě URL adresy a pomocí web scrapingu, velkých jazykových modelů, Google API a kosinové míry podobnosti se pokusí vyhledat podobné webové stránky k zadané webové stránce. Na závěr se program otestuje a vyhodnotí. |
Keywords: |
extrakce klíčových slov; velké jazykové modely; vyhledávání; vyhledávače; webové stránky; web scraping; Python; Selenium |
Thesis title: |
AI-powered competitive website search system |
Author: |
Dao, Sinh Duc |
Thesis type: |
Bachelor thesis |
Supervisor: |
Vojíř, Stanislav |
Opponents: |
Nguyen, Viet Bach |
Thesis language: |
Česky |
Abstract: |
The aim of this bachelor thesis is to design and build a search engine for competing websites using large language models. It's main goal is to allow companies to find similar websites to a given URL. The thesis firstly does a research on topics website search, keyword and search engine analysis. Next, it explains in detail what big language models and web scraping are and performs an analysis of their models and tools. Before implementation, functionalities are designed and their possible problems and requirements are analyzed. In the implementation part, the functionalities are programmed and the result is a program that accepts input from a user in the form of a URL and attempts to find similar web pages to the specified web page using web scraping, large language models, Google API and cosine similarity measure. Finally, the program is tested and evaluated. |
Keywords: |
searching; search engines; web pages; large language models; Python; Selenium; keyword extraction; web scraping |
Information about study
Study programme: |
Aplikovaná informatika |
Type of study programme: |
Bakalářský studijní program |
Assigned degree: |
Bc. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Informatics and Statistics |
Department: |
Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: |
12. 2. 2024 |
Date of submission: |
9. 12. 2024 |
Date of defense: |
2024 |
Files for download
The files will be available after the defense of the thesis.