Modelování Sémantiky Kanji Pomocí Dekompozice a Komponentních Embeddingů

Název práce: Modeling Kanji Semantics using Decomposition and Component Embeddings
Autor(ka) práce: Písková, Veronika
Typ práce: Bachelor thesis
Vedoucí práce: Šafr, Karel
Oponenti práce: Čabla, Adam
Jazyk práce: English
Abstrakt:
This thesis investigates the relationship between kanji characters and their components. The analysis is conducted from both a computational, data-driven perspective and a human interpretability standpoint. The work is motivated by the question of how structural information encoded in kanji relates to meaning, whether such relationships can be captured computationally, and, as a secondary objective, whether at least one component can be correctly inferred for each kanji. A selected dataset of kanji is decomposed into components according to predefined criteria. Each kanji is represented in a high-dimensional vector space using embeddings, which are subsequently reduced using PCA. In parallel, a binary matrix representation is constructed to encode the presence or absence of components for each kanji. This leads to a multi-label learning formulation, where kanji characters are represented through the presence or absence of their components. Subsequently, an artificial neural network is employed to model the relationship between kanji structure and semantics, providing an empirical framework for evaluating whether semantic embeddings encode information about component structure. The results suggest a non-random, measurable but limited relationship between kanji structure and semantic embeddings, while also highlighting the constraints of purely data driven decomposition without linguistic priors.
Klíčová slova: Multi-label; PCA; Kanji; Embedding; ANN; Japanese
Název práce: Modelování Sémantiky Kanji Pomocí Dekompozice a Komponentních Embeddingů
Autor(ka) práce: Písková, Veronika
Typ práce: Bakalářská práce
Vedoucí práce: Šafr, Karel
Oponenti práce: Čabla, Adam
Jazyk práce: English
Abstrakt:
Tato práce zkoumá vztah mezi znaky kanji a jejich komponentami. Analýza je provedena jak z výpočetního, datově řízeného hlediska, tak z hlediska lidské intepretace. Práce je motivována otázkou, jak strukturální informace obsažené v kanji souvisejí s významem, zda lze tyto vztahy zachytit výpočetně a jako vedlejší cíl také tím, zda lze pro každý znak správně odvodit alespoň jednu komponentu. Vybraný soubor znaků kanji je rozložen na komponenty podle předem definovaných kritérií. Každý znak je reprezentován ve vysoko dimenzionálním vektorovém prostoru pomocí embeddingů, které jsou následně zredukovány metodou PCA. Paralelně je vytvořena binární maticová reprezentace, která kóduje přítomnost nebo nepřítomnost komponent pro jednotlivé znaky. Tím vzniká problém vícenásobné klasifikace. Následně je použit umělý neuronový model pro modelování vztahu mezi strukturou kanji a sémantikou, čímž je vytvořen empirický rámec pro vyhodnocení, zda sémantické embeddingy obsahují informaci o strukturním složení. Výsledky naznačují nenáhodný, měřitelný, avšak omezený vztah mezi strukturou kanji a sémantickými embeddingy, přičemž zároveň poukazují na limity čistě datově řízeného rozkladu bez lingvistických apriorních předpokladů.
Klíčová slova: Vicenásobná Klasifikace; PCA; Kanji; Embedding; ANN; Japonština

Informace o studiu

Studijní program / obor: Matematické metody v ekonomii/Ekonometrie a operační výzkum
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 24. 1. 2026
Datum podání práce: 24. 6. 2026
Datum obhajoby: 2026

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: