Aplikace metod dolování asociačních pravidel na genetické mutace

Název práce: Aplikace metod dolování asociačních pravidel na genetické mutace
Autor(ka) práce: Grossmannová, Žaneta
Typ práce: Bakalářská práce
Vedoucí práce: Jeršova, Julija
Oponenti práce: Hrudková, Kateřina
Jazyk práce: Česky
Abstrakt:
Tato práce se zabývá aplikací metod pro dolování asociačních pravidel na data o genetických mutacích z projektu 1000 Genomes Project. Cílem práce je porovnat dva odlišné přístupy, a to algoritmus FP-Growth, pracující nad transakčními daty, a algoritmus AMIE 3, který doluje pravidla ze znalostních grafů ve formátu RDF, z hlediska rychlosti zpracování, počtu nalezených pravidel, kvality pravidel a jejich interpretovatelnosti. Aby bylo srovnání metodologicky oprávněné, byla stejná biologická data předzpracována do dvou odlišných formátů odpovídajících požadavkům každého algoritmu. Analýza byla provedena na regionu chromozomu 21 ve třech úlohách zaměřených na asociace mezi samotnými mutacemi, jejich funkčními vlastnostmi a příslušností k lidským populacím. Výsledky ukazují, že oba algoritmy jsou z hlediska rychlosti srovnatelné, avšak FP-Growth umožňuje spustit analýzu pro konkrétní úlohu, zatímco AMIE 3 generuje všechna pravidla v jednom běhu. Počet a typ nalezených pravidel se obtížně porovnávají přímo, protože každý algoritmus generuje pravidla odlišného typu. Přímé porovnání kvality pravidel je omezeno neekvivalentností metrik confidence a PCA confidence. Z hlediska interpretovatelnosti závisí vhodnost algoritmu na typu úlohy. FP-Growth je vhodnější pro analýzu přímého ko-výskytu variant, AMIE 3 pro zachycení pojmenovaných vztahů mezi různými typy entit. Oba algoritmy se v hlavních biologických zjištěních shodly.
Klíčová slova: asociační pravidla; algoritmus AMIE 3; algoritmus FP-Growth; dolování pravidel; genetické varianty
Název práce: Application of Association Rule Mining Methods to Genetic Mutations
Autor(ka) práce: Grossmannová, Žaneta
Typ práce: Bachelor thesis
Vedoucí práce: Jeršova, Julija
Oponenti práce: Hrudková, Kateřina
Jazyk práce: Česky
Abstrakt:
This thesis applies association rule mining methods to genetic mutation data from the 1000 Genomes Project. The aim is to compare two distinct approaches, the FP-Growth algorithm, which operates on transactional data, and the AMIE 3 algorithm, which mines rules from knowledge graphs in RDF format, in terms of processing speed, number of discovered rules, rule quality, and interpretability. To ensure a methodologically sound comparison, the same biological data were preprocessed into two different formats corresponding to the requirements of each algorithm. The analysis was performed on a region of chromosome 21 across three tasks focused on associations between mutations themselves, their functional properties, and membership in human populations. The results show that both algorithms are comparable in terms of speed, although FP-Growth allows running the analysis for a specific task, while AMIE 3 generates all rules in a single run. The number and type of discovered rules are difficult to compare directly, as each algorithm generates rules of a different type. Direct comparison of rule quality is limited by the non-equivalence of the confidence and PCA confidence metrics. In terms of interpretability, the suitability of the algorithm depends on the type of task. FP-Growth is better suited for analysing direct variant co-occurrence, while AMIE 3 is better suited for capturing named relationships between different entity types. Both algorithms agreed in their main biological findings.
Klíčová slova: association rule; AMIE 3 algorithm; FP-Growth algorithm,; rule mining; genetic variants

Informace o studiu

Studijní program / obor: Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 23. 9. 2025
Datum podání práce: 11. 5. 2026
Datum obhajoby: 23. 6. 2026
Identifikátor v systému InSIS: https://insis.vse.cz/zp/93502/podrobnosti

Soubory ke stažení

    Poslední aktualizace: