Comparison between Frequentist and Bayesian logistic regression on the example of real data
Thesis title: | Comparison between Frequentist and Bayesian logistic regression on the example of real data |
---|---|
Author: | Fedorov, Mikhail |
Thesis type: | Bachelor thesis |
Supervisor: | Karel, Tomáš |
Opponents: | Bílková, Diana |
Thesis language: | English |
Abstract: | This study compares frequentist and Bayesian approaches to logistic regression using real-world data, with a particular focus on the impact of informative and non-informative priors in Bayesian analysis. The research is motivated by advances in computational capabilities that have made Bayesian methods increasingly accessible in machine learning applications. The methodology involved splitting the dataset into two parts: a primary subset (20%) for model evaluation and a larger auxiliary subset (80%) simulating prior knowledge. Three approaches were compared: classical logistic regression, Bayesian logistic regression with non-informative priors, and Bayesian logistic regression with informative priors. Model performance was evaluated using multiple metrics including Accuracy, Precision, Recall, F1-score, and ROC-AUC score, along with an analysis of 95% confidence intervals (CI) as well as credible intervals . Results demonstrate that while classical and non-informative prior Bayesian approaches showed similar performance, the Bayesian model with informative priors achieved superior results with an accuracy of 0.83 (compared to 0.78), F1-score of 0.85 (versus 0.81), and notably higher ROC-AUC of 0.93 (versus 0.81). The most significant improvement was observed in parameter uncertainty estimation, where the credible interval length undergone an average reduction of 15.1% compared to the classical approach, with improvements ranging from 10.3% to 28.2% across different variables. |
Keywords: | Bayesian statistics; Logistic regression; Informative priors; Machine learning; Confidence intervals |
Thesis title: | Porovnání frekventistické a Bayesovské logistické regrese na příkladu reálných dat |
---|---|
Author: | Fedorov, Mikhail |
Thesis type: | Bakalářská práce |
Supervisor: | Karel, Tomáš |
Opponents: | Bílková, Diana |
Thesis language: | English |
Abstract: | Tato studie porovnává frekventistický a Bayesovský přístup k logistické regresi s využitím reálných dat, přičemž se zvláštní důraz klade na vliv informativních a neinformativních apriorních rozdělení v Bayesovské analýze. Výzkum je motivován pokrokem v oblasti výpočetních možností, které činí Bayesovské metody stále dostupnějšími v aplikacích strojového učení. Metodika zahrnovala rozdělení datové sady na dvě části: primární podmnožinu (20 %) pro hodnocení modelu a větší pomocnou podmnožinu (80 %), která simulovala předchozí znalosti. Byly porovnány tři přístupy: klasická logistická regrese, Bayesovská logistická regrese s neinformativními apriorními rozděleními a Bayesovská logistická regrese s informativními apriorními rozděleními. Výkonnost modelů byla hodnocena pomocí několika metrik, včetně přesnosti (Accuracy), preciznosti (Precision), návratnosti (Recall), F1-skóre a ROC-AUC skóre. Dále byla analyzována 95% intervaly spolehlivosti (CI) a věrohodnostní intervaly. Výsledky ukazují, že zatímco klasická regrese a Bayesovský přístup s neinformativními apriorními rozděleními vykazovaly podobný výkon, Bayesovský model s informativními apriorními rozděleními dosáhl výrazně lepších výsledků s přesností 0,83 (ve srovnání s 0,78), F1-skórem 0,85 (oproti 0,81) a výrazně vyšším ROC-AUC 0,93 (oproti 0,81). Nejvýznamnější zlepšení bylo pozorováno v odhadech nejistoty parametrů, kde délka věrohodnostních intervalů byla v průměru snížena o 15,1 % ve srovnání s klasickým přístupem, s vylepšeními v rozmezí od 10,3 % do 28,2 % u různých proměnných. |
Keywords: | Bayesovská statistika; Logistická regrese; Informativní apriorní rozdělení; Strojové učení; Intervaly spolehlivosti |
Information about study
Study programme: | Matematické metody v ekonomii/Datové analýzy a modelování |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 21. 6. 2024 |
---|---|
Date of submission: | 8. 12. 2024 |
Date of defense: | 4. 2. 2025 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/88781/podrobnosti |