Post-processing of association rules by multicriterial clustering method

Author: Kejkula, Martin
Thesis type: Disertační práce
Supervisor: Rauch, Jan
Opponents: Berka, Petr; Máša, Petr
Thesis language: Česky
Cílem této práce je navrhnout metodu, která by umožňovala zpracovat množinu asociačních pravidel: měla by poskytovat strukturovaný, přehledný popis celé množiny asociačních pravidel, získané libovolnou implementací nějakého algoritmu pro hledání asociačních pravidel v analyzovaných datech. Měla by uživateli poskytnout přehled o množině vygenerovaných asociačních pravidel a usnadnit její zpracování. Způsob dosažení cíle, zvolený v této práci je: rozdělit množinu asociačních pravidel do podmnožin. Asociační pravidla v jedné podmnožině by si měla být vzájemně více podobná než pravidla ze dvou různých podmnožin. Hlavním přínosem této práce je nová originální metoda zpracování asociačních pravidel. Vedlejším přínosem práce je rozsáhlá rešerše publikovaných metod zpracování asociačních pravidel. Metoda vícekriteriálního shlukování poskytuje rozdělení asociačních pravidel do skupin vzájemně si podobných pravidel (tzv. "přirozených shluků"), kterého není možné dosáhnout žádnou z doposud známých metod. Metoda používá nový způsob reprezentace asociačních pravidel, inspirovaný vektorovým modelem, používaným v oblasti zpracování informačních fondů (information retrieval). V práci je popsán převod asociačních pravidel do vektorového modelu, analogickému k vektorové reprezentaci dokumentů. Jádrem metody je dvojí, na sobě nezávislé shlukování asociačních pravidel: shlukování kvantitativních charakteristik (jako jsou např. spolehlivost, podpora, faktor zajímavosti) a cedentální shlukování asociačních pravidel (inspirované shlukováním dokumentů). Struktura práce: na úvodní kapitolu navazuje kapitola, popisující proces dobývání znalostí z databází. Proces je popsán na základě vybraných metodik (CRISP-DM, SEMMA, GUHA, RAMSYS).Třetí kapitola je věnována pojmu asociační pravidlo a charakteristikám asociačních pravidel. Další kapitola obsahuje rešerši současných metod post-processingu asociačních pravidel. Pátá kapitola seznamuje s problematikou shlukování. Šestá kapitola obsahuje popis metody vícekriteriálního shlukování asociačních pravidel. Další kapitola se věnuje experimentům. Osmá kapitola se zabývá možnostmi využití metody.
Keywords: shlukování; míry zajímavosti; data mining; asociacní pravidla; shluková analýza; průzkum dat; post-processing; interpretace; explorační analýza dat; dobývání znalostí z databází
Thesis title: Post-processing of association rules by multicriterial clustering method
Association rules mining is one of several ways of knowledge discovery in databases. Paradoxically, data mining itself can produce such great amounts of association rules that there is a new knowledge management problem: there can easily be thousands or even more association rules holding in a data set. The goal of this work is to design a new method for association rules post-processing. The method should be software and domain independent. The output of the new method should be structured description of the whole set of discovered association rules. The output should help user to work with discovered rules. The path to reach the goal I used is: to split association rules into clusters. Each cluster should contain rules, which are more similar each other than to rules from another cluster. The output of the method is such cluster definition and description. The main contribution of this Ph.D. thesis is the described new Multicriterial clustering association rules method. Secondary contribution is the discussion of already published association rules post-processing methods. The output of the introduced new method are clusters of rules, which cannot be reached by any of former post-processing methods. According user expectations clusters are more relevant and more effective than any former association rules clustering results. The method is based on two orthogonal clustering of the same set of association rules. One clustering is based on interestingness measures (confidence, support, interest, etc.). Second clustering is inspired by document clustering in information retrieval. The representation of rules in vectors like documents is fontal in this thesis. The thesis is organized as follows. Chapter 2 identify the role of association rules in the KDD (knowledge discovery in databases) process, using KDD methodologies (CRISP-DM, SEMMA, GUHA, RAMSYS). Chapter 3 define association rule and introduce characteristics of association rules (including interestingness measuress). Chapter 4 introduce current association rules post-processing methods. Chapter 5 is the introduction to cluster analysis. Chapter 6 is the description of the new Multicriterial clustering association rules method. Chapter 7 consists of several experiments. Chapter 8 discuss possibilities of usage and development of the new method.
Keywords: cluster analysis; data exploration; post-processing; knowledge discovery in databases; interpretation; interestingness measures; exploratory data analysis; data mining; association rules

Information about study

Study programme: Aplikovaná informatika/Informatika
Type of study programme: Doktorský studijní program
Assigned degree: Ph.D.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 30. 9. 2002
Date of submission: 21. 4. 2009
Date of defense: 11. 6. 2009
