Quality measures of classification models and their conversion

Thesis title: Míry kvality klasifikačních modelů a jejich převod
Author: Hanusek, Lubomír
Thesis type: Disertační práce
Supervisor: Hebák, Petr
Opponents: Řezanková, Hana; Skalská, Hana
Thesis language: Česky
Prediktivní sílu klasifikačních modelů lze vyhodnotit různými ukazateli. V oblasti data miningu (dále DM) se nejvíce využívají míry Giniho koeficient, Kolmogorovova-Smirnovova statistika a lift. Tyto míry jsou založeny na zcela rozdílném způsobu výpočtu a je-li analytik zvyklý používat jednu z těchto měr, může být pro něj těžké udělat si představu o kvalitě modelu vyhodnoceném jinou mírou. Tato práce si klade za cíl nalézt mezi jednotlivými mírami převodní mechanismus. Přestože hlavní důraz je kladen na tři výše uvedené míry, práce se zabývá i dalšími ukazateli, a to sensitivitou, specificitou, celkovou správností a plochou pod ROC křivkou. Při vývoji DM modelů často vzniká potřeba pracovat nikoli s původním základním souborem o rozsahu miliónů či desítek miliónů pozorování, ale s výběrem, který je stratifikovaný dle hodnot vysvětlované proměnné Y. Vyhodnotí-li se pak model na stratifikovaných datech, vzniká potřeba vědět, jak se jednotlivé míry změní při přepočtu na základní soubor. Tato práce popisuje způsob, jak tento převod uskutečnit. Součástí této práce je i softwarová aplikace, která výše uvedené převody umožňuje. S její pomocí lze nejen převádět jednu míru kvality na druhou, ale také převádět míry získané na stratifikovaném souboru na soubor základní. Výstupem této aplikace je vedle požadovaných měr (sensitivita, specificita, celková správnost, Giniho koeficient, Kolmogorovova-Smirnovova statistika) také konfuzní matice a grafy kvality (lift křivka, gains křivka, ROC křivka a KS křivka). Internetová adresa, kde lze aplikaci stáhnout, a také uživatelský manuál k této aplikaci jsou součástí této práce. Veškerá teorie popsaná v této práci byla ověřena na reálných datových souborech.
Keywords: konfuzní matice; lift; Kolmogorovova-Smirnovova statistika; Giniho koeficient; klasifikační model; ROC křivka; logistická regrese; specificita; sensitivita; převod; data mining
Thesis title: Quality measures of classification models and their conversion
Author: Hanusek, Lubomír
Thesis type: Dissertation thesis
Supervisor: Hebák, Petr
Opponents: Řezanková, Hana; Skalská, Hana
Thesis language: Česky
Predictive power of classification models can be evaluated by various measures. The most popular measures in data mining (DM) are Gini coefficient, Kolmogorov-Smirnov statistic and lift. These measures are each based on a completely different way of calculation. If an analyst is used to one of these measures it can be difficult for him to asses the predictive power of a model evaluated by another measure. The aim of this thesis is to develop a method how to convert one performance measure into another. Even though this thesis focuses mainly on the above-mentioned measures, it deals also with other measures like sensitivity, specificity, total accuracy and area under ROC curve. During development of DM models you may need to work with a sample that is stratified by values of the target variable Y instead of working with the whole population containing millions of observations. If you evaluate a model developed on a stratified data you may need to convert these measures to the whole population. This thesis describes a way, how to carry out this conversion. A software application (CPM) enabling all these conversions makes part of this thesis. With this application you can not only convert one performance measure to another, but you can also convert measures calculated on a stratified sample to the whole population. Besides the above mentioned performance measures (sensitivity, specificity, total accuracy, Gini coefficient, Kolmogorov-Smirnov statistic), CPM will also generate confusion matrix and performance charts (lift chart, gains chart, ROC chart and KS chart). This thesis comprises the user manual to this application as well as the web address where the application can be downloaded. The theory described in this thesis was verified on the real data.
Keywords: data mining; sensitivity; lift; ROC curve; logistic regression; Gini coefficient; confusion matrix; conversion; classification model; specificity; Kolmogorov-Smirnov statistic

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Doktorský studijní program
Assigned degree: Ph.D.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 30. 9. 2003
Date of submission: 31. 3. 2010
Date of defense: 1. 6. 2009
Identifier in the InSIS system: https://insis.vse.cz/zp/14612/podrobnosti

Files for download

    Last update: