Thesis title: |
Deep generative models for tree-structured data with applications to molecular graphs |
Author: |
Do, Viet Anh |
Thesis type: |
Diploma thesis |
Supervisor: |
Šmidl, Václav |
Opponents: |
- |
Thesis language: |
English |
Abstract: |
This thesis develops an autoregressive generative model for tree-structured data, extending sequential modeling principles to handle hierarchical structures while maintaining structural validity. Building on the Hierarchical Multiple Instance Learning (HMill) framework, we introduce a novel probability factorization that respects both ordered and unordered relationships in tree structures. Our neural implementation combines efficient state management with probability computation, enabling generation of complex hierarchical data like molecular structures. The model's architecture features bidirectional transformations between data and probability spaces, with careful handling of batched computation across variable-size structures. Experimental validation on the mutagenesis dataset demonstrates the model's ability to generate diverse, valid molecular structures while capturing meaningful chemical patterns. Our approach bridges an important gap between supervised and generative learning for hierarchical data, providing both theoretical insights and practical tools for working with tree-structured representations. |
Keywords: |
Autoregressive models; Hierarchical Multiple Instance Learning; Molecular generation; Generative modeling; Tree-structured data; Neural networks |
Thesis title: |
Hluboké generativní modely pro stromově strukturovaná data s aplikací na molekulární grafy |
Author: |
Do, Viet Anh |
Thesis type: |
Diplomová práce |
Supervisor: |
Šmidl, Václav |
Opponents: |
- |
Thesis language: |
English |
Abstract: |
Tato práce vyvíjí autoregresivní generativní model pro stromově strukturovaná data, který rozšiřuje principy sekvenčního modelování pro práci s hierarchickými strukturami při zachování strukturální validity. Na základě frameworku Hierarchického Učení s Vícenásobnými Instancemi (HMill) zavádíme novou faktorizaci pravděpodobnosti, která respektuje uspořádané i neuspořádané vztahy ve stromových strukturách. Naše neuronová implementace kombinuje efektivní správu stavů s výpočtem pravděpodobnosti, což umožňuje generování komplexních hierarchických dat, jako jsou molekulární struktury. Architektura modelu využívá obousměrné transformace mezi datovým a pravděpodobnostním prostorem, s pečlivým zpracováním dávkových výpočtů napříč strukturami proměnné velikosti. Experimentální validace na datasetu mutageneze demonstruje schopnost modelu generovat různorodé, validní molekulární struktury při zachycení významných chemických vzorů. Náš přístup překlenuje důležitou mezeru mezi supervised a generativním učením pro hierarchická data a poskytuje jak teoretické poznatky, tak praktické nástroje pro práci se stromově strukturovanými reprezentacemi. |
Keywords: |
Stromově strukturovaná data; Autoregresivní modely; Generativní modelování; Neuronové sítě; Generování molekul; Hierarchické učení s vícenásobnými instancemi |
Information about study
Study programme: |
Znalostní a webové technologie |
Type of study programme: |
Magisterský studijní program |
Assigned degree: |
Ing. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Informatics and Statistics |
Department: |
Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: |
1. 6. 2024 |
Date of submission: |
2. 12. 2024 |
Date of defense: |
2024 |
Files for download
The files will be available after the defense of the thesis.