Automatizace deskriptivního data miningu: využití externích dat v evaluační fázi

Název práce: Automation of Descriptive Data Mining: The Use of External Data in the Evaluation Phase
Autor(ka) práce: Nekvapil, Viktor
Typ práce: Dissertation thesis
Vedoucí práce: Rauch, Jan
Oponenti práce: Kliegr, Tomáš; Kléma, Jiří; Popelínský, Lubomír
Jazyk práce: English
Abstrakt:
Data mining has reached a mature state. There is a plethora of algorithms available, used more and more in everyday business. As far as the descriptive data mining is concerned, its assets are not clear but it often represents a necessary first step in the predictive task. Therefore, there is a distinct requirement to automate the descriptive task and thus reduce costs which are not easily justifiable considering the perspective of business people. This thesis strives to contribute to this issue.The thesis focuses on an automation of descriptive data mining task, specifically, the evaluation phase. Automation of data mining requires encoding a significant amount of domain knowledge. The thesis tries to use cheaper sources of domain knowledge than the domain experts source, that is, processed external data (External Knowledge), which can be either internal data of a company or publicly available resources, such as open data.The main aim of the thesis is to propose a new way of automation of the evaluation phase of descriptive data mining task based on external data. The thesis provides a comprehensive overview of data mining, domain knowledge and automation. The newly proposed External Knowledge Framework includes two approaches to the utilization of External Knowledge. The first approach, called Explanation System, offers the user an additional knowledge that could help him in the evaluation of the results. The second approach, referred to as SEI-formulas, further automates the evaluation phase of the descriptive data mining task and prepares automatic conclusions based on the consequences or contradictions of the defined SEI-formula. SEI-formula is a pre-defined relationship of the attribute from the resulting pattern and the attribute from External Knowledge.Both Explanation system and the SEI-formulas are implemented making use of custom-made Python engine; SQLite database is used as a storage of External Knowledge. The programming codes of implementation are publicly available at GitHub. The proof of concept solution employs association rules as resulting patterns, the evaluation of which is to be automated. Association rules are mined using the 4ft-Miner procedure of the LISp-Miner system. The proposed artifacts have been evaluated through methods of Experiments, Scenarios, Functional testing, Dynamic analysis and Comparison. The evaluation methods indicate that the External Knowledge Framework can be used to automate the evaluation phase of descriptive data mining task in the financial services industry domain. Furthermore, the integration of External Knowledge Framework and FOFRADAR has been proposed.
Klíčová slova: data mining; descriptive data mining; automation; evaluation phase of data mining task; external data
Název práce: Automatizace deskriptivního data miningu: využití externích dat v evaluační fázi
Autor(ka) práce: Nekvapil, Viktor
Typ práce: Disertační práce
Vedoucí práce: Rauch, Jan
Oponenti práce: Kliegr, Tomáš; Kléma, Jiří; Popelínský, Lubomír
Jazyk práce: English
Abstrakt:
Data mining se už řadí k vyspělým metodám práce s daty. Existuje velké množství algoritmů, které pronikají stále víc do podnikových procesů. Co se týče deskriptivního data miningu, jeho přínos pro podnik je špatně měřitelný, ale často se jedná o první nezbytný krok pro prediktivní data mining. Odtud se odvíjí snaha deskriptivní data mining automatizovat a takto zredukovat náklady, které jsou před manažery těžko obhajitelné. Cílem mé disertační práce je přispět k řešení tohoto problému.Hlavním tématem práce je automatizace deskriptivní data miningové úlohy, konkrétně fáze evaluace. Pro automatizaci data miningu je nutné zakomponovat do celého procesu velké množství doménové znalosti. Protože cílem práce je snížení nákladů na data mining, využívají se v maximálně možné míře jiné zdroje doménové znalosti, než je obvykle drahý doménový expert. Jde o zpracovaná externí data („Externí znalost“), která mohou být použita jako náhrada za doménovou znalost získanou od experta. Příkladem takových dat jsou například interní firemní databáze nebo veřejně dostupná data, někdy také označovaná jako otevřená data.Hlavním cílem mé práce je navrhnout novou metodu automatizace evaluační fáze data miningové úlohy založené na externích datech. V úvodu prezentuji rozsáhlou rešerši o data miningu, doménové znalosti a automatizaci. Následuje nově navržený rámec (Framework) obsahující dva přístupy k zacházení s Externí znalostí. První přístup, nazvaný Explanační systém, nabízí uživateli dodatečnou znalost, která mu může pomoci při evaluaci výsledků deskriptivní data miningové úlohy. Druhý přístup, nazvaný SEI-formule, dále automatizuje evaluaci deskriptivní data minigové úlohy a připravuje automatizované závěry data miningové úlohy založené na konsekvencích nebo kontradikcích definované SEI-formule. SEI-formule je předdefinovaný vztah mezi dvěma atributy, přičemž jeden z nich je atribut odvozený z výsledků data miningové úlohy, druhý atribut je odvozen z Externí znalosti.Oba dva přístupy, Explanační systém i SEI-formule, jsou implementovány pomocí jazyka Python, SQLite databáze se používá pro uložení Externí znalosti. Programové kódy jsou veřejně přístupné na webové stránce GitHub. Řešení Proof of concept používá asociační pravidla jakožto výsledky deskriptivní úlohy, jejichž evaluace je tedy předmětem automatizace. Asociační pravidla jsou získána pomocí systému LISp-Miner. Pro ověření navrženého rámce jsou použity tři různé datasety z finanční oblasti a následujcí metody ověření – experimenty, scénáře, funkční testování, dynamická analýza, porovnání. Metody naznačují, že navržený rámec lze využít k automatizaci deskriptivní data miningové úlohy z finanční oblasti. V závěru práce provádím integraci nově navrženého rámce s rámcem FOFRADAR.
Klíčová slova: data mining; deskriptivní data mining; automatizace; evaluační fáze data miningové úlohy; externí data

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu: Doktorský studijní program
Přidělovaná hodnost: Ph.D.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 8. 7. 2013
Datum podání práce: 16. 2. 2019
Datum obhajoby: 30. 5. 2019
Identifikátor v systému InSIS: https://insis.vse.cz/zp/43588/podrobnosti

Soubory ke stažení

    Poslední aktualizace: