Aplikace metod dolování asociačních pravidel na genetické mutace
| Název práce: | Aplikace metod dolování asociačních pravidel na genetické mutace |
|---|---|
| Autor(ka) práce: | Grossmannová, Žaneta |
| Typ práce: | Bakalářská práce |
| Vedoucí práce: | Jeršova, Julija |
| Oponenti práce: | Hrudková, Kateřina |
| Jazyk práce: | Česky |
| Abstrakt: | Tato práce se zabývá aplikací metod pro dolování asociačních pravidel na data o genetických mutacích z projektu 1000 Genomes Project. Cílem práce je porovnat dva odlišné přístupy, a to algoritmus FP-Growth, pracující nad transakčními daty, a algoritmus AMIE 3, který doluje pravidla ze znalostních grafů ve formátu RDF, z hlediska rychlosti zpracování, počtu nalezených pravidel, kvality pravidel a jejich interpretovatelnosti. Aby bylo srovnání metodologicky oprávněné, byla stejná biologická data předzpracována do dvou odlišných formátů odpovídajících požadavkům každého algoritmu. Analýza byla provedena na regionu chromozomu 21 ve třech úlohách zaměřených na asociace mezi samotnými mutacemi, jejich funkčními vlastnostmi a příslušností k lidským populacím. Výsledky ukazují, že oba algoritmy jsou z hlediska rychlosti srovnatelné, avšak FP-Growth umožňuje spustit analýzu pro konkrétní úlohu, zatímco AMIE 3 generuje všechna pravidla v jednom běhu. Počet a typ nalezených pravidel se obtížně porovnávají přímo, protože každý algoritmus generuje pravidla odlišného typu. Přímé porovnání kvality pravidel je omezeno neekvivalentností metrik confidence a PCA confidence. Z hlediska interpretovatelnosti závisí vhodnost algoritmu na typu úlohy. FP-Growth je vhodnější pro analýzu přímého ko-výskytu variant, AMIE 3 pro zachycení pojmenovaných vztahů mezi různými typy entit. Oba algoritmy se v hlavních biologických zjištěních shodly. |
| Klíčová slova: | asociační pravidla; algoritmus AMIE 3; algoritmus FP-Growth; dolování pravidel; genetické varianty |
| Název práce: | Application of Association Rule Mining Methods to Genetic Mutations |
|---|---|
| Autor(ka) práce: | Grossmannová, Žaneta |
| Typ práce: | Bachelor thesis |
| Vedoucí práce: | Jeršova, Julija |
| Oponenti práce: | Hrudková, Kateřina |
| Jazyk práce: | Česky |
| Abstrakt: | This thesis applies association rule mining methods to genetic mutation data from the 1000 Genomes Project. The aim is to compare two distinct approaches, the FP-Growth algorithm, which operates on transactional data, and the AMIE 3 algorithm, which mines rules from knowledge graphs in RDF format, in terms of processing speed, number of discovered rules, rule quality, and interpretability. To ensure a methodologically sound comparison, the same biological data were preprocessed into two different formats corresponding to the requirements of each algorithm. The analysis was performed on a region of chromosome 21 across three tasks focused on associations between mutations themselves, their functional properties, and membership in human populations. The results show that both algorithms are comparable in terms of speed, although FP-Growth allows running the analysis for a specific task, while AMIE 3 generates all rules in a single run. The number and type of discovered rules are difficult to compare directly, as each algorithm generates rules of a different type. Direct comparison of rule quality is limited by the non-equivalence of the confidence and PCA confidence metrics. In terms of interpretability, the suitability of the algorithm depends on the type of task. FP-Growth is better suited for analysing direct variant co-occurrence, while AMIE 3 is better suited for capturing named relationships between different entity types. Both algorithms agreed in their main biological findings. |
| Klíčová slova: | association rule; AMIE 3 algorithm; FP-Growth algorithm,; rule mining; genetic variants |
Informace o studiu
| Studijní program / obor: | Aplikovaná informatika |
|---|---|
| Typ studijního programu: | Bakalářský studijní program |
| Přidělovaná hodnost: | Bc. |
| Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
| Fakulta: | Fakulta informatiky a statistiky |
| Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
| Datum zadání práce: | 23. 9. 2025 |
|---|---|
| Datum podání práce: | 11. 5. 2026 |
| Datum obhajoby: | 23. 6. 2026 |
| Identifikátor v systému InSIS: | https://insis.vse.cz/zp/93502/podrobnosti |