Prediction of company insolvency using data science methods

Thesis title: Predikce insolvence podniku s využitím metod datové vědy
Author: Beranová, Lucie
Thesis type: Diplomová práce
Supervisor: Kliegr, Tomáš
Opponents: Černý, Michal
Thesis language: Česky
Abstract:
Hlavním cílem celé práce byla tvorba modelů určených pro predikci insolvence firem zakládajících si na maximální využitelnosti dostupných dat. Tím se rozumí využití široké nabídky proměnných a v závislosti od toho se odvíjí i různé velikosti dostupných vzorků dat, z čehož vyplynulo 10 experimentů. Experimenty byly využity k porovnání z více zajímavých hledisek, příkladem je porovnání prediktivní síly modelu pro různá časová období, využití různých sad proměnných a zkoumání jejich důležitostí, vliv vzorku dat na přesnost modelu a na změnu významnosti proměnných apod. Část práce také porovnává interpretovatelnost modelu náhodného lesa a logistické regrese. Práce je založena na využití metod datové vědy, z tohoto důvodu byl čtenář v úvodní kapitole s tímto pojmem a s ním souvisejícími pojmy stručně seznámen. Dále byla představena metodika CRISP-DM, ze které vycházel vlastní výzkum práce. Detailněji byly teoreticky rozebrány některé podsekce této metodiky – metody redukce počtu proměnných nebo výběr modelu a evaluace. Kapitoly obsahují zejména teoretický základ metod, jež byly v této práci využité. Práce byla také inspirována článkem Breimana (2001), na základě kterého byly modely vybírány dle dvou kritérií – interpretovatelnost a prediktivní síla. Jako zástupce interpretovatelného modelu byl použit model penalizované logistické regrese, pro svou prediktivní sílu byl zvolen model náhodného lesa. Pro zlepšení přesnosti modelu se využívala řada specifických technik, jako např. stratifikovaná křížová validace, metoda vyrovnání dat Oversampling nebo ladění parametrů pomocí Grid Search. V rámci práce byly také využity text miningové metody. Zpracování dat probíhalo v Pythonu, modelování v R.
Keywords: strojové učení; logistická regrese; náhodný les; insolvence; klasifikace; predikce
Thesis title: Prediction of company insolvency using data science methods
Author: Beranová, Lucie
Thesis type: Diploma thesis
Supervisor: Kliegr, Tomáš
Opponents: Černý, Michal
Thesis language: Česky
Abstract:
The main goal of the thesis was to create models designed to predict the insolvency of companies based on the maximum usability of available data. It means to use wide range of variables, depending on this, the different sizes of available data samples are derived, resulting in 10 experiments. The experiments were used for comparison from more interesting points of view, an example is comparing the predictive power of the model for different time periods, using different sets of variables and examining their importance, the influence of a data sample on model accuracy and changing the significance of variables, etc. Part of the thesis also compares the interpretability of the Random forest model and logistic regression. The work is based on data science methods, for this reason, the reader was briefly acquainted with this term and related terms in the introductory chapter. Furthermore, the CRISP-DM methodology was introduced, on which the research of the thesis was based. Some subsections of this methodology were theoretically analyzed in more detail – methods of reducing the number of variables or model selection and evaluation. The chapters contain mainly the theoretical basis of the methods used in this thesis. The thesis was also inspired by an article by Breiman (2001), based on which the models were selected according to two criteria - interpretability and predictive power. The model of penalized logistic regression was used as a representative of the interpretable model, and the random forest model was chosen for its predictive power. A number of specific techniques have been used to improve the accuracy of the model, such as stratified cross-validation, the Oversampling method, or Grid Search parameter tuning. Text mining methods were also used in the work. Data processing took place in Python, modeling in R.
Keywords: machine learning; logistic regression; random forest; insolvency; classification; prediction

Information about study

Study programme: Kvantitativní metody v ekonomice/Ekonometrie a operační výzkum
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 12. 9. 2019
Date of submission: 2. 5. 2020
Date of defense: 4. 6. 2020
Identifier in the InSIS system: https://insis.vse.cz/zp/70442/podrobnosti

Files for download

    Last update: