Reálná úloha dobývání znalostí
Název práce: | Reálná úloha dobývání znalostí |
---|---|
Autor(ka) práce: | Kolafa, Ondřej |
Typ práce: | Diplomová práce |
Vedoucí práce: | Berka, Petr |
Oponenti práce: | Kliegr, Tomáš |
Jazyk práce: | Česky |
Abstrakt: | Hlavní náplní této práce je provedení reálné úlohy dobývání znalostí s cílem klasifikovat držitele termínovaných účtů. Úloha je řešena nad reálnými, anonymizovanými daty bankovních klientů s nízkým stavem finančních prostředků. V souladu s metodikou CRISP-DM je práce prováděna v následujících krocích: porozumění problematice, porozumění datům, příprava dat, modelování, vyhodnocení výsledků a využití výsledků. Úloha dobývání znalostí probíhá v aplikaci RapidMiner. V teoretické části byly popsány postupy a metody aplikované v reálné úloze. Bylo představeno samotné dobývání znalostí z databází se zvláštním přihlédnutím k aplikacím v oblasti řízení vztahů se zákazníky. Dále byla představena metodika CRISP-DM, možnosti úloh, které dobývání znalostí z databází nabízí, a techniky, které jsou k dané úloze vhodné. Rozdíl ve velikosti skupin majitelů a nevlastníků termínovaného účtu byl natolik značný, že muselo dojít k vybalancování trénovacího datového souboru. Do fáze vyhodnocení bylo vybráno celkem dvanáct modelů. Podle zvolených kritérií hodnocení (plocha pod ROC křivkou a F-míra) byly za nejlepší shledány modely logistické regrese a bayesovské sítě). V poslední fázi data miningového procesu je navrženo možné využití výsledků v praxi. Problém je rozpracován pouze formou doporučení a zamyšlení, neboť nebylo možné výsledky aplikovat na reálnou situaci. |
Klíčová slova: | CRM; dobývání znalostí z databází; cross-sell; klasifikace; CRISP-DM; data mining |
Název práce: | The Real Knowledge Discovery Task |
---|---|
Autor(ka) práce: | Kolafa, Ondřej |
Typ práce: | Diploma thesis |
Vedoucí práce: | Berka, Petr |
Oponenti práce: | Kliegr, Tomáš |
Jazyk práce: | Česky |
Abstrakt: | The major objective of this thesis is to perform a real data mining task of classifying term deposit accounts holders. For this task an anonymous bank customers with low funds position data are used. In correspondence with CRISP-DM methodology the work is guided through these steps: business understanding, data understanding, data preparation, modeling, evaluation and deployment. The RapidMiner application is used for modeling. Methods and procedures used in actual task are described in theoretical part. Basic concepts of data mining with special respect to CRM segment was introduced as well as CRISP-DM methodology and technics suitable for this task. A difference in proportions of long term accounts holders and non-holders enforced data set had to be balanced in favour of holders. At the final stage, there are twelve models built. According to chosen criterias (area under curve and f-measure) two best models (logistic regression and bayes network) were elected. In the last stage of data mining process a possible real-world utilisation is mentioned. The task is developed only in form of recommendations, because it can't be applied to the real situation. |
Klíčová slova: | CRM; cross-sell; classification; knowledge discovery in databases; data mining; CRISP-DM |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Znalostní technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 15. 11. 2012 |
---|---|
Datum podání práce: | 10. 5. 2013 |
Datum obhajoby: | 27. 1. 2014 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/40347/podrobnosti |