Geolokace textu na základě pojmenovaných entit a znalostních bází

Název práce: Text geolocation based on named entities and knowledge bases
Autor(ka) práce: Palyzová, Adéla
Typ práce: Bachelor thesis
Vedoucí práce: Vencovský, Filip
Oponenti práce: Lacko, Jindřich
Jazyk práce: English
Abstrakt:
This thesis examines how geolocation systems perform on indirect locational reference - texts where location must be inferred without explicit place names, where toponyms are ambiguous, or where entity names are shared across multiple real-world referents in different places. These cases represent a documented failure boundary for standard geoparsing but have not been evaluated under controlled conditions in existing benchmarks. A synthetic dataset of 360 entries is constructed around three signal types: indirect entity inference (no toponym present), ambiguous toponyms, and ambiguous entity names. Seven pipeline architectures drawn from three paradigms - two-stage entity linking, end-to-end entity linking, and prompt-engineered large language models - are evaluated against this benchmark across clean and noisy conditions, two text formats, and six continents. The findings show that no single paradigm dominates across all three signal types. Entity linking handles ambiguous toponyms most reliably; large language models handle indirect inference better due to their parametric world knowledge; ambiguous entity names remain hard for all systems. A routing architecture that selects between entity linking and an LLM per text achieves the most consistent performance on clean data but proves fragile under noise. Geographic bias toward Europe and North America is present in every pipeline tested. Results are validated against GeoCorpora real tweets, confirming the paradigm patterns transfer beyond synthetic data. The thesis contributes a reusable benchmark isolating signal types that aggregate evaluations obscure and demonstrates that combining existing paradigms is more effective than any single one - while arguing that the field should work toward unified models capable of handling both indirect inference and toponym disambiguation natively.
Klíčová slova: geolocation from text; natural language processing; indirect locational reference; toponym disambiguation; geoparsing; named entity recognition; Wikidata; geographic information systems; entity linking; large language models
Název práce: Geolokace textu na základě pojmenovaných entit a znalostních bází
Autor(ka) práce: Palyzová, Adéla
Typ práce: Bakalářská práce
Vedoucí práce: Vencovský, Filip
Oponenti práce: Lacko, Jindřich
Jazyk práce: English
Abstrakt:
Tato práce zkoumá, jak systémy pro geolokaci textu fungují v případech nepřímých prostorových odkazů - tedy v textech, kde je nutné lokaci odvodit bez explicitního uvedení názvu místa, kde jsou toponyma nejednoznačná, nebo kde se shodné názvy entit vztahují k více reálným referentům na různých místech. Tyto případy představují dokumentovanou hranici selhání standardních geoparserů, ale dosud nebyly v existujících benchmarcích vyhodnoceny za kontrolovaných podmínek. Syntetický dataset o 360 záznamech je vytvořen kolem tří typů signálu: nepřímé odvození entity (bez přítomnosti toponyma), nejednoznačná toponyma a nejednoznačné názvy entit. Sedm pipeline architektur ze tří paradigmat - dvoufázové propojování entit (entity linking), end-to-end propojování entit a velké jazykové modely s návrhem promptů - je proti tomuto benchmarku vyhodnoceno za čistých i zašuměných podmínek, ve dvou textových formátech a na šesti kontinentech. Výsledky ukazují, že žádné jednotlivé paradigma nedominuje napříč všemi třemi typy signálu. Propojování entit nejspolehlivěji zvládá nejednoznačná toponyma; velké jazykové modely si lépe poradí s nepřímým odvozováním díky svým parametrickým znalostem o světě; nejednoznačné názvy entit zůstávají obtížné pro všechny systémy. Architektura s routováním, která pro každý text vybírá mezi propojováním entit a LLM, dosahuje nejkonzistentnějšího výkonu na čistých datech, ale ukazuje se jako křehká při zašumění. Geografická zaujatost ve prospěch Evropy a Severní Ameriky je přítomna ve všech testovaných pipelinech. Výsledky jsou validovány proti reálným tweetům z datasetu GeoCorpora, což potvrzuje, že zjištěné vzorce paradigmat se přenášejí i mimo syntetická data. Práce přináší znovupoužitelný benchmark, který izoluje typy signálu zastíněné agregovanými hodnoceními, a ukazuje, že kombinace existujících paradigmat je účinnější než kterékoli jednotlivé - přičemž argumentuje ve prospěch toho, aby obor směřoval k jednotným modelům schopným zvládnout nepřímé odvozování i disambiguaci toponym nativně.
Klíčová slova: geografické informační systémy; geolokace z textu; propojování entit; rozpoznávání pojmenovaných entit; nepřímá lokační reference; geoparsing; disambiguace toponym; velké jazykové modely; Wikidata; zpracování přirozeného jazyka

Informace o studiu

Studijní program / obor: Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 1. 2. 2026
Datum podání práce: 13. 5. 2026
Datum obhajoby: 2026

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: