AI-powered competitive website search system

Thesis title: Systém pro vyhledávání konkurenčních webových stránek za využití AI
Author: Dao, Sinh Duc
Thesis type: Bakalářská práce
Supervisor: Vojíř, Stanislav
Opponents: Nguyen, Viet Bach
Thesis language: Česky
Abstract:
Cílem této bakalářské práce je navrhnout a vytvořit program, který pomůže uživatelům s vyhledáváním konkurenčních webových stránek pomocí umělé inteligence. Hlavní funkcionalitou pro splnění tohoto cíle je identifikace SEO klíčových slov z obsahu webové stránky využitím velkých jazykových modelů (LLM). Práce se nejprve zabývá definicí pojmů „analýza klíčových slov“ a „web scraping“. Dále byla vypracována rešerše na téma velkých jazykových modelů a prompt engineering. Pro zajištění správné funkčnosti programu byla provedena analýza a testování různých LLM prostřednictvím API, kde byl na závěr vybrán model Gemini 2.0 Flash. Na základě získaných informací z analýzy požadavků práce a srovnání existujících aplikací byly definovány hlavní funkcionality programu, podle nichž byl vytvořen návrh implementace programu a uživatelského rozhraní. Pro implementaci byl zvolen programovací jazyk Python spolu s nástrojem Selenium pro extrakci interních odkazů a HTML dokumentů a frameworkem Streamlit pro realizaci webového rozhraní a nasazení aplikace. Na závěr proběhlo uživatelské testování a test bezpečnosti aplikace. Výsledkem práce je aplikace, která umožňuje uživatelům extrahovat HTML dokumenty ze zadané URL pomocí web scrapingu a následně generovat SEO klíčová slova pomocí velkého jazykového modelu. Výstupy lze navíc ovlivnit nastavením počtu a jazyka klíčových slov.
Keywords: velké jazykové modely; extrakce klíčových slov; vyhledávání; vyhledávače; webové stránky; web scraping; Python; Selenium; SEO; Streamlit; API
Thesis title: AI-powered competitive website search system
Author: Dao, Sinh Duc
Thesis type: Bachelor thesis
Supervisor: Vojíř, Stanislav
Opponents: Nguyen, Viet Bach
Thesis language: Česky
Abstract:
This bachelor's thesis aims to design and develop a program that helps users search for competing websites using artificial intelligence. To reach the goal, the main function of the program involves SEO keywords identification from the content of a given webpage with the help of large language models (LLM). First, the thesis defines the terms „keyword analysis“ and „web scraping“. It then presents a research on large language models and prompt engineering. To ensure the correct functionality of the program, various LLMs were analyzed and tested via API calls, with the final chosen model being Gemini 2.0 Flash. Based on the findings from the requirements analysis and a comparison of existing applications, the main functionalities of the program were defined. These functionalities served as the basis for designing the program’s implementation and user interface. The final application was developed in Python, using Selenium as a web scraping tool. For the implementation of the web interface and deployment of the application, the Streamlit framework was chosen. Finally, usability testing and a security test were conducted on the resulting application. The result of this thesis is an application that uses web scraping to extract HTML documents from a given URL and subsequently generates SEO keywords using a large language model. Users can further customize the output by adjusting the number and the language of the keywords.
Keywords: searching; Selenium; keyword extraction; Python; SEO; Streamlit; search engines; web pages; large language models; web scraping; API

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 12. 2. 2024
Date of submission: 12. 5. 2025
Date of defense: 18. 6. 2025
Identifier in the InSIS system: https://insis.vse.cz/zp/87461/podrobnosti

Files for download

    Last update: