Deep generative models for tree-structured data with applications to molecular graphs
Autor(ka) práce:
Do, Viet Anh
Typ práce:
Diploma thesis
Vedoucí práce:
Šmidl, Václav
Oponenti práce:
-
Jazyk práce:
English
Abstrakt:
This thesis develops an autoregressive generative model for tree-structured data, extending sequential modeling principles to handle hierarchical structures while maintaining structural validity. Building on the Hierarchical Multiple Instance Learning (HMill) framework, we introduce a novel probability factorization that respects both ordered and unordered relationships in tree structures. Our neural implementation combines efficient state management with probability computation, enabling generation of complex hierarchical data like molecular structures. The model's architecture features bidirectional transformations between data and probability spaces, with careful handling of batched computation across variable-size structures. Experimental validation on the mutagenesis dataset demonstrates the model's ability to generate diverse, valid molecular structures while capturing meaningful chemical patterns. Our approach bridges an important gap between supervised and generative learning for hierarchical data, providing both theoretical insights and practical tools for working with tree-structured representations.
Hluboké generativní modely pro stromově strukturovaná data s aplikací na molekulární grafy
Autor(ka) práce:
Do, Viet Anh
Typ práce:
Diplomová práce
Vedoucí práce:
Šmidl, Václav
Oponenti práce:
-
Jazyk práce:
English
Abstrakt:
Tato práce vyvíjí autoregresivní generativní model pro stromově strukturovaná data, který rozšiřuje principy sekvenčního modelování pro práci s hierarchickými strukturami při zachování strukturální validity. Na základě frameworku Hierarchického Učení s Vícenásobnými Instancemi (HMill) zavádíme novou faktorizaci pravděpodobnosti, která respektuje uspořádané i neuspořádané vztahy ve stromových strukturách. Naše neuronová implementace kombinuje efektivní správu stavů s výpočtem pravděpodobnosti, což umožňuje generování komplexních hierarchických dat, jako jsou molekulární struktury. Architektura modelu využívá obousměrné transformace mezi datovým a pravděpodobnostním prostorem, s pečlivým zpracováním dávkových výpočtů napříč strukturami proměnné velikosti. Experimentální validace na datasetu mutageneze demonstruje schopnost modelu generovat různorodé, validní molekulární struktury při zachycení významných chemických vzorů. Náš přístup překlenuje důležitou mezeru mezi supervised a generativním učením pro hierarchická data a poskytuje jak teoretické poznatky, tak praktické nástroje pro práci se stromově strukturovanými reprezentacemi.
Klíčová slova:
Stromově strukturovaná data; Autoregresivní modely; Generativní modelování; Neuronové sítě; Generování molekul; Hierarchické učení s vícenásobnými instancemi