Porovnání Mastodon API a web scrapingu při získávání veřejně dostupných dat
| Název práce: | Porovnání Mastodon API a web scrapingu při získávání veřejně dostupných dat |
|---|---|
| Autor(ka) práce: | Ermolenko, Ekaterina |
| Typ práce: | Bakalářská práce |
| Vedoucí práce: | Syrovátková, Jana |
| Oponenti práce: | Sudzina, František |
| Jazyk práce: | Česky |
| Abstrakt: | Bakalářská práce se zabývá porovnáním dvou přístupů získávání veřejně dostupných dat ze sociální platformy Mastodon. Jedná se o API přístup a přístup prostřednictvím web scrapingu. V teoretické části jsou představeny základní principy obou přístupů, jejich technické aspekty a charakteristika platformy Mastodon. Praktická část se zaměřuje na implementaci a testování obou přístupů na třech předem definovaných scénářích sběru dat. Oba přístupy jsou hodnoceny pomocí předem definovaných metrik, mezi něž patří doba zpracování, využití procesoru, spotřeba operační paměti, úspěšnost získání záznamů, úplnost atributů a stabilita doby zpracování. Výsledkem práce je srovnání obou přístupů na základě provedených experimentů, interpretace získaných výsledků a zhodnocení jejich vhodnosti pro praktické využití. |
| Klíčová slova: | web scraping; sběr dat; Mastodon API; Selenium |
| Název práce: | Porovnání Mastodon API a web scrapingu při získávání veřejně dostupných dat |
|---|---|
| Autor(ka) práce: | Ermolenko, Ekaterina |
| Typ práce: | Bachelor thesis |
| Vedoucí práce: | Syrovátková, Jana |
| Oponenti práce: | Sudzina, František |
| Jazyk práce: | Česky |
| Abstrakt: | This bachelor’s thesis compares two approaches to extracting publicly available data from the Mastodon social platform: the API approach and the web scraping approach. The theoretical section presents the basic principles of both approaches, their technical aspects, and the characteristics of the Mastodon platform. The practical section focuses on the implementation and testing of both approaches across three predefined data collection scenarios. Both approaches are evaluated using predefined metrics, including processing time, CPU usage, RAM consumption, record retrieval success rate, attribute completeness, and processing time stability. The thesis concludes with a comparison of both approaches based on the conducted experiments, an interpretation of the obtained results, and an assessment of their suitability for practical use. |
| Klíčová slova: | data collection; Mastodon API; web scraping; Selenium |
Informace o studiu
| Studijní program / obor: | Aplikovaná informatika |
|---|---|
| Typ studijního programu: | Bakalářský studijní program |
| Přidělovaná hodnost: | Bc. |
| Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
| Fakulta: | Fakulta informatiky a statistiky |
| Katedra: | Katedra systémové analýzy |
Informace o odevzdání a obhajobě
| Datum zadání práce: | 31. 1. 2026 |
|---|---|
| Datum podání práce: | 11. 5. 2026 |
| Datum obhajoby: | 23. 6. 2026 |
| Identifikátor v systému InSIS: | https://insis.vse.cz/zp/87262/podrobnosti |