Hluboké generativní modely pro stromově strukturovaná data s aplikací na molekulární grafy
Název práce: | Deep generative models for tree-structured data with applications to molecular graphs |
---|---|
Autor(ka) práce: | Do, Viet Anh |
Typ práce: | Diploma thesis |
Vedoucí práce: | Šmidl, Václav |
Oponenti práce: | Horák, Karel |
Jazyk práce: | English |
Abstrakt: | This thesis develops an autoregressive generative model for tree-structured data, extending sequential modeling principles to handle hierarchical structures while maintaining structural validity. Building on the Hierarchical Multiple Instance Learning (HMill) framework, we introduce a novel probability factorization that respects both ordered and unordered relationships in tree structures. Our neural implementation combines efficient state management with probability computation, enabling generation of complex hierarchical data like molecular structures. The model's architecture features bidirectional transformations between data and probability spaces, with careful handling of batched computation across variable-size structures. Experimental validation on the mutagenesis dataset demonstrates the model's ability to generate diverse, valid molecular structures while capturing meaningful chemical patterns. Our approach bridges an important gap between supervised and generative learning for hierarchical data, providing both theoretical insights and practical tools for working with tree-structured representations. |
Klíčová slova: | Autoregressive models; Hierarchical Multiple Instance Learning; Molecular generation; Generative modeling; Tree-structured data; Neural networks |
Název práce: | Hluboké generativní modely pro stromově strukturovaná data s aplikací na molekulární grafy |
---|---|
Autor(ka) práce: | Do, Viet Anh |
Typ práce: | Diplomová práce |
Vedoucí práce: | Šmidl, Václav |
Oponenti práce: | Horák, Karel |
Jazyk práce: | English |
Abstrakt: | Tato práce vyvíjí autoregresivní generativní model pro stromově strukturovaná data, který rozšiřuje principy sekvenčního modelování pro práci s hierarchickými strukturami při zachování strukturální validity. Na základě frameworku Hierarchického Učení s Vícenásobnými Instancemi (HMill) zavádíme novou faktorizaci pravděpodobnosti, která respektuje uspořádané i neuspořádané vztahy ve stromových strukturách. Naše neuronová implementace kombinuje efektivní správu stavů s výpočtem pravděpodobnosti, což umožňuje generování komplexních hierarchických dat, jako jsou molekulární struktury. Architektura modelu využívá obousměrné transformace mezi datovým a pravděpodobnostním prostorem, s pečlivým zpracováním dávkových výpočtů napříč strukturami proměnné velikosti. Experimentální validace na datasetu mutageneze demonstruje schopnost modelu generovat různorodé, validní molekulární struktury při zachycení významných chemických vzorů. Náš přístup překlenuje důležitou mezeru mezi supervised a generativním učením pro hierarchická data a poskytuje jak teoretické poznatky, tak praktické nástroje pro práci se stromově strukturovanými reprezentacemi. |
Klíčová slova: | Stromově strukturovaná data; Autoregresivní modely; Generativní modelování; Neuronové sítě; Generování molekul; Hierarchické učení s vícenásobnými instancemi |
Informace o studiu
Studijní program / obor: | Znalostní a webové technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 1. 6. 2024 |
---|---|
Datum podání práce: | 2. 12. 2024 |
Datum obhajoby: | 11. 6. 2025 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/88191/podrobnosti |