Deep generative models for tree-structured data with applications to molecular graphs

Thesis title: Deep generative models for tree-structured data with applications to molecular graphs
Author: Do, Viet Anh
Thesis type: Diploma thesis
Supervisor: Šmidl, Václav
Opponents: -
Thesis language: English
Abstract:
This thesis develops an autoregressive generative model for tree-structured data, extending sequential modeling principles to handle hierarchical structures while maintaining structural validity. Building on the Hierarchical Multiple Instance Learning (HMill) framework, we introduce a novel probability factorization that respects both ordered and unordered relationships in tree structures. Our neural implementation combines efficient state management with probability computation, enabling generation of complex hierarchical data like molecular structures. The model's architecture features bidirectional transformations between data and probability spaces, with careful handling of batched computation across variable-size structures. Experimental validation on the mutagenesis dataset demonstrates the model's ability to generate diverse, valid molecular structures while capturing meaningful chemical patterns. Our approach bridges an important gap between supervised and generative learning for hierarchical data, providing both theoretical insights and practical tools for working with tree-structured representations.
Keywords: Autoregressive models; Hierarchical Multiple Instance Learning; Molecular generation; Generative modeling; Tree-structured data; Neural networks
Thesis title: Hluboké generativní modely pro stromově strukturovaná data s aplikací na molekulární grafy
Author: Do, Viet Anh
Thesis type: Diplomová práce
Supervisor: Šmidl, Václav
Opponents: -
Thesis language: English
Abstract:
Tato práce vyvíjí autoregresivní generativní model pro stromově strukturovaná data, který rozšiřuje principy sekvenčního modelování pro práci s hierarchickými strukturami při zachování strukturální validity. Na základě frameworku Hierarchického Učení s Vícenásobnými Instancemi (HMill) zavádíme novou faktorizaci pravděpodobnosti, která respektuje uspořádané i neuspořádané vztahy ve stromových strukturách. Naše neuronová implementace kombinuje efektivní správu stavů s výpočtem pravděpodobnosti, což umožňuje generování komplexních hierarchických dat, jako jsou molekulární struktury. Architektura modelu využívá obousměrné transformace mezi datovým a pravděpodobnostním prostorem, s pečlivým zpracováním dávkových výpočtů napříč strukturami proměnné velikosti. Experimentální validace na datasetu mutageneze demonstruje schopnost modelu generovat různorodé, validní molekulární struktury při zachycení významných chemických vzorů. Náš přístup překlenuje důležitou mezeru mezi supervised a generativním učením pro hierarchická data a poskytuje jak teoretické poznatky, tak praktické nástroje pro práci se stromově strukturovanými reprezentacemi.
Keywords: Stromově strukturovaná data; Autoregresivní modely; Generativní modelování; Neuronové sítě; Generování molekul; Hierarchické učení s vícenásobnými instancemi

Information about study

Study programme: Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 1. 6. 2024
Date of submission: 2. 12. 2024
Date of defense: 2024

Files for download

The files will be available after the defense of the thesis.

    Last update: