Analýza struktury českého webu pomocí grafových metod

Název práce: Analysis of the Czech Web structure using graph-based methods
Autor(ka) práce: Fanta, Martin
Typ práce: Diploma thesis
Vedoucí práce: Dudáš, Marek
Oponenti práce: Zeman, Václav
Jazyk práce: English
Abstrakt:
This thesis is useful for individual researchers seeking to obtain data about specific parts of the Internet, as well as for marketers looking to identify high-authority websites for advertising. It focuses on analyzing the structure of the Czech web domain space using graph-based methods. A distributed web crawler has been developed to collect hyperlinks and metadata from .cz domains, and the resulting data have been stored and processed in a graph database. Network analysis techniques have been applied to identify key structural properties of the web graph. Centrality measures, including degree, closeness, betweenness, and PageRank, have been used to determine the most important domains, while the Louvain algorithm has been applied to detect community structures. In addition, basic metadata statistics have been examined to provide a broader overview of the dataset. The results obtained from the custom crawler have been compared to data from the Common Crawl dataset. The comparison highlights how different data sources influence the observed network structure and the consistency of identified patterns. The thesis demonstrates how graph-based approaches can support the identification of influential domains and improve the understanding of large-scale web structures in practical applications.
Klíčová slova: web graph; network analysis; web crawling; centrality; pagerank; community detection
Název práce: Analýza struktury českého webu pomocí grafových metod
Autor(ka) práce: Fanta, Martin
Typ práce: Diplomová práce
Vedoucí práce: Dudáš, Marek
Oponenti práce: Zeman, Václav
Jazyk práce: English
Abstrakt:
Tato práce je užitečná pro individuální výzkumníky, kteří chtějí získávat data o konkrétních částech internetu, a také pro marketéry hledající webové stránky s vysokou autoritou pro publikaci reklamy. Zaměřuje se na analýzu struktury českého webového doménového prostoru pomocí grafových metod. Byl vyvinut distribuovaný webový crawler pro sběr hypertextových odkazů a metadat z domén .cz a výsledná data byla uložena a zpracována v grafové databázi. Pro identifikaci klíčových strukturálních vlastností webového grafu byly použity techniky síťové analýzy. K určení nejdůležitějších domén byly použity míry centrality, konkrétně degree, closeness, betweenness a PageRanku, zatímco k detekci komunitních struktur byl použit Louvain algoritmus. Kromě toho byly zkoumány základní statistiky metadat, aby byl k dispozici širší přehled o datové sadě. Výsledky získané z vlastního crawleru byly porovnány s daty z datové sady Common Crawl. Srovnání zdůrazňuje, jak různé zdroje dat ovlivňují pozorovanou strukturu sítě a konzistenci identifikovaných vzorců. Práce ukazuje, jak mohou grafové přístupy napomoci identifikaci vlivných domén a zlepšit porozumění rozsáhlým webovým strukturám v praktických aplikacích.
Klíčová slova: pagerank; webový graf; analýza sítí; web crawling; centralita; detekce komunit

Informace o studiu

Studijní program / obor: Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 4. 4. 2025
Datum podání práce: 3. 5. 2026
Datum obhajoby: 1. 6. 2026
Identifikátor v systému InSIS: https://insis.vse.cz/zp/92087/podrobnosti

Soubory ke stažení

    Poslední aktualizace: