Application of Association Rule Mining Methods to Genetic Mutations

Thesis title: Aplikace metod dolování asociačních pravidel na genetické mutace
Author: Grossmannová, Žaneta
Thesis type: Bakalářská práce
Supervisor: Jeršova, Julija
Opponents: Hrudková, Kateřina
Thesis language: Česky
Abstract:
Tato práce se zabývá aplikací metod pro dolování asociačních pravidel na data o genetických mutacích z projektu 1000 Genomes Project. Cílem práce je porovnat dva odlišné přístupy, a to algoritmus FP-Growth, pracující nad transakčními daty, a algoritmus AMIE 3, který doluje pravidla ze znalostních grafů ve formátu RDF, z hlediska rychlosti zpracování, počtu nalezených pravidel, kvality pravidel a jejich interpretovatelnosti. Aby bylo srovnání metodologicky oprávněné, byla stejná biologická data předzpracována do dvou odlišných formátů odpovídajících požadavkům každého algoritmu. Analýza byla provedena na regionu chromozomu 21 ve třech úlohách zaměřených na asociace mezi samotnými mutacemi, jejich funkčními vlastnostmi a příslušností k lidským populacím. Výsledky ukazují, že oba algoritmy jsou z hlediska rychlosti srovnatelné, avšak FP-Growth umožňuje spustit analýzu pro konkrétní úlohu, zatímco AMIE 3 generuje všechna pravidla v jednom běhu. Počet a typ nalezených pravidel se obtížně porovnávají přímo, protože každý algoritmus generuje pravidla odlišného typu. Přímé porovnání kvality pravidel je omezeno neekvivalentností metrik confidence a PCA confidence. Z hlediska interpretovatelnosti závisí vhodnost algoritmu na typu úlohy. FP-Growth je vhodnější pro analýzu přímého ko-výskytu variant, AMIE 3 pro zachycení pojmenovaných vztahů mezi různými typy entit. Oba algoritmy se v hlavních biologických zjištěních shodly.
Keywords: asociační pravidla; algoritmus AMIE 3; algoritmus FP-Growth; dolování pravidel; genetické varianty
Thesis title: Application of Association Rule Mining Methods to Genetic Mutations
Author: Grossmannová, Žaneta
Thesis type: Bachelor thesis
Supervisor: Jeršova, Julija
Opponents: Hrudková, Kateřina
Thesis language: Česky
Abstract:
This thesis applies association rule mining methods to genetic mutation data from the 1000 Genomes Project. The aim is to compare two distinct approaches, the FP-Growth algorithm, which operates on transactional data, and the AMIE 3 algorithm, which mines rules from knowledge graphs in RDF format, in terms of processing speed, number of discovered rules, rule quality, and interpretability. To ensure a methodologically sound comparison, the same biological data were preprocessed into two different formats corresponding to the requirements of each algorithm. The analysis was performed on a region of chromosome 21 across three tasks focused on associations between mutations themselves, their functional properties, and membership in human populations. The results show that both algorithms are comparable in terms of speed, although FP-Growth allows running the analysis for a specific task, while AMIE 3 generates all rules in a single run. The number and type of discovered rules are difficult to compare directly, as each algorithm generates rules of a different type. Direct comparison of rule quality is limited by the non-equivalence of the confidence and PCA confidence metrics. In terms of interpretability, the suitability of the algorithm depends on the type of task. FP-Growth is better suited for analysing direct variant co-occurrence, while AMIE 3 is better suited for capturing named relationships between different entity types. Both algorithms agreed in their main biological findings.
Keywords: association rule; AMIE 3 algorithm; FP-Growth algorithm,; rule mining; genetic variants

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 23. 9. 2025
Date of submission: 11. 5. 2026
Date of defense: 23. 6. 2026
Identifier in the InSIS system: https://insis.vse.cz/zp/93502/podrobnosti

Files for download

    Last update: