Analýza struktury českého webu pomocí grafových metod
| Název práce: | Analysis of the Czech Web structure using graph-based methods |
|---|---|
| Autor(ka) práce: | Fanta, Martin |
| Typ práce: | Diploma thesis |
| Vedoucí práce: | Dudáš, Marek |
| Oponenti práce: | Zeman, Václav |
| Jazyk práce: | English |
| Abstrakt: | This thesis is useful for individual researchers seeking to obtain data about specific parts of the Internet, as well as for marketers looking to identify high-authority websites for advertising. It focuses on analyzing the structure of the Czech web domain space using graph-based methods. A distributed web crawler has been developed to collect hyperlinks and metadata from .cz domains, and the resulting data have been stored and processed in a graph database. Network analysis techniques have been applied to identify key structural properties of the web graph. Centrality measures, including degree, closeness, betweenness, and PageRank, have been used to determine the most important domains, while the Louvain algorithm has been applied to detect community structures. In addition, basic metadata statistics have been examined to provide a broader overview of the dataset. The results obtained from the custom crawler have been compared to data from the Common Crawl dataset. The comparison highlights how different data sources influence the observed network structure and the consistency of identified patterns. The thesis demonstrates how graph-based approaches can support the identification of influential domains and improve the understanding of large-scale web structures in practical applications. |
| Klíčová slova: | web graph; network analysis; web crawling; centrality; pagerank; community detection |
| Název práce: | Analýza struktury českého webu pomocí grafových metod |
|---|---|
| Autor(ka) práce: | Fanta, Martin |
| Typ práce: | Diplomová práce |
| Vedoucí práce: | Dudáš, Marek |
| Oponenti práce: | Zeman, Václav |
| Jazyk práce: | English |
| Abstrakt: | Tato práce je užitečná pro individuální výzkumníky, kteří chtějí získávat data o konkrétních částech internetu, a také pro marketéry hledající webové stránky s vysokou autoritou pro publikaci reklamy. Zaměřuje se na analýzu struktury českého webového doménového prostoru pomocí grafových metod. Byl vyvinut distribuovaný webový crawler pro sběr hypertextových odkazů a metadat z domén .cz a výsledná data byla uložena a zpracována v grafové databázi. Pro identifikaci klíčových strukturálních vlastností webového grafu byly použity techniky síťové analýzy. K určení nejdůležitějších domén byly použity míry centrality, konkrétně degree, closeness, betweenness a PageRanku, zatímco k detekci komunitních struktur byl použit Louvain algoritmus. Kromě toho byly zkoumány základní statistiky metadat, aby byl k dispozici širší přehled o datové sadě. Výsledky získané z vlastního crawleru byly porovnány s daty z datové sady Common Crawl. Srovnání zdůrazňuje, jak různé zdroje dat ovlivňují pozorovanou strukturu sítě a konzistenci identifikovaných vzorců. Práce ukazuje, jak mohou grafové přístupy napomoci identifikaci vlivných domén a zlepšit porozumění rozsáhlým webovým strukturám v praktických aplikacích. |
| Klíčová slova: | pagerank; webový graf; analýza sítí; web crawling; centralita; detekce komunit |
Informace o studiu
| Studijní program / obor: | Znalostní a webové technologie |
|---|---|
| Typ studijního programu: | Magisterský studijní program |
| Přidělovaná hodnost: | Ing. |
| Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
| Fakulta: | Fakulta informatiky a statistiky |
| Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
| Datum zadání práce: | 4. 4. 2025 |
|---|---|
| Datum podání práce: | 3. 5. 2026 |
| Datum obhajoby: | 1. 6. 2026 |
| Identifikátor v systému InSIS: | https://insis.vse.cz/zp/92087/podrobnosti |