Hluboké generativní modely pro stromově strukturovaná data s aplikací na molekulární grafy

Název práce: Deep generative models for tree-structured data with applications to molecular graphs
Autor(ka) práce: Do, Viet Anh
Typ práce: Diploma thesis
Vedoucí práce: Šmidl, Václav
Oponenti práce: -
Jazyk práce: English
Abstrakt:
This thesis develops an autoregressive generative model for tree-structured data, extending sequential modeling principles to handle hierarchical structures while maintaining structural validity. Building on the Hierarchical Multiple Instance Learning (HMill) framework, we introduce a novel probability factorization that respects both ordered and unordered relationships in tree structures. Our neural implementation combines efficient state management with probability computation, enabling generation of complex hierarchical data like molecular structures. The model's architecture features bidirectional transformations between data and probability spaces, with careful handling of batched computation across variable-size structures. Experimental validation on the mutagenesis dataset demonstrates the model's ability to generate diverse, valid molecular structures while capturing meaningful chemical patterns. Our approach bridges an important gap between supervised and generative learning for hierarchical data, providing both theoretical insights and practical tools for working with tree-structured representations.
Klíčová slova: Autoregressive models; Hierarchical Multiple Instance Learning; Molecular generation; Generative modeling; Tree-structured data; Neural networks
Název práce: Hluboké generativní modely pro stromově strukturovaná data s aplikací na molekulární grafy
Autor(ka) práce: Do, Viet Anh
Typ práce: Diplomová práce
Vedoucí práce: Šmidl, Václav
Oponenti práce: -
Jazyk práce: English
Abstrakt:
Tato práce vyvíjí autoregresivní generativní model pro stromově strukturovaná data, který rozšiřuje principy sekvenčního modelování pro práci s hierarchickými strukturami při zachování strukturální validity. Na základě frameworku Hierarchického Učení s Vícenásobnými Instancemi (HMill) zavádíme novou faktorizaci pravděpodobnosti, která respektuje uspořádané i neuspořádané vztahy ve stromových strukturách. Naše neuronová implementace kombinuje efektivní správu stavů s výpočtem pravděpodobnosti, což umožňuje generování komplexních hierarchických dat, jako jsou molekulární struktury. Architektura modelu využívá obousměrné transformace mezi datovým a pravděpodobnostním prostorem, s pečlivým zpracováním dávkových výpočtů napříč strukturami proměnné velikosti. Experimentální validace na datasetu mutageneze demonstruje schopnost modelu generovat různorodé, validní molekulární struktury při zachycení významných chemických vzorů. Náš přístup překlenuje důležitou mezeru mezi supervised a generativním učením pro hierarchická data a poskytuje jak teoretické poznatky, tak praktické nástroje pro práci se stromově strukturovanými reprezentacemi.
Klíčová slova: Stromově strukturovaná data; Autoregresivní modely; Generativní modelování; Neuronové sítě; Generování molekul; Hierarchické učení s vícenásobnými instancemi

Informace o studiu

Studijní program / obor: Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 1. 6. 2024
Datum podání práce: 2. 12. 2024
Datum obhajoby: 2024

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: