Comparison between Frequentist and Bayesian logistic regression on the example of real data
Autor(ka) práce:
Fedorov, Mikhail
Typ práce:
Bachelor thesis
Vedoucí práce:
Karel, Tomáš
Oponenti práce:
Bílková, Diana
Jazyk práce:
English
Abstrakt:
This study compares frequentist and Bayesian approaches to logistic regression using real-world data, with a particular focus on the impact of informative and non-informative priors in Bayesian analysis. The research is motivated by advances in computational capabilities that have made Bayesian methods increasingly accessible in machine learning applications. The methodology involved splitting the dataset into two parts: a primary subset (20%) for model evaluation and a larger auxiliary subset (80%) simulating prior knowledge. Three approaches were compared: classical logistic regression, Bayesian logistic regression with non-informative priors, and Bayesian logistic regression with informative priors. Model performance was evaluated using multiple metrics including Accuracy, Precision, Recall, F1-score, and ROC-AUC score, along with an analysis of 95% confidence intervals (CI) as well as credible intervals . Results demonstrate that while classical and non-informative prior Bayesian approaches showed similar performance, the Bayesian model with informative priors achieved superior results with an accuracy of 0.83 (compared to 0.78), F1-score of 0.85 (versus 0.81), and notably higher ROC-AUC of 0.93 (versus 0.81). The most significant improvement was observed in parameter uncertainty estimation, where the credible interval length undergone an average reduction of 15.1% compared to the classical approach, with improvements ranging from 10.3% to 28.2% across different variables.
Porovnání frekventistické a Bayesovské logistické regrese na příkladu reálných dat
Autor(ka) práce:
Fedorov, Mikhail
Typ práce:
Bakalářská práce
Vedoucí práce:
Karel, Tomáš
Oponenti práce:
Bílková, Diana
Jazyk práce:
English
Abstrakt:
Tato studie porovnává frekventistický a Bayesovský přístup k logistické regresi s využitím reálných dat, přičemž se zvláštní důraz klade na vliv informativních a neinformativních apriorních rozdělení v Bayesovské analýze. Výzkum je motivován pokrokem v oblasti výpočetních možností, které činí Bayesovské metody stále dostupnějšími v aplikacích strojového učení. Metodika zahrnovala rozdělení datové sady na dvě části: primární podmnožinu (20 %) pro hodnocení modelu a větší pomocnou podmnožinu (80 %), která simulovala předchozí znalosti. Byly porovnány tři přístupy: klasická logistická regrese, Bayesovská logistická regrese s neinformativními apriorními rozděleními a Bayesovská logistická regrese s informativními apriorními rozděleními. Výkonnost modelů byla hodnocena pomocí několika metrik, včetně přesnosti (Accuracy), preciznosti (Precision), návratnosti (Recall), F1-skóre a ROC-AUC skóre. Dále byla analyzována 95% intervaly spolehlivosti (CI) a věrohodnostní intervaly. Výsledky ukazují, že zatímco klasická regrese a Bayesovský přístup s neinformativními apriorními rozděleními vykazovaly podobný výkon, Bayesovský model s informativními apriorními rozděleními dosáhl výrazně lepších výsledků s přesností 0,83 (ve srovnání s 0,78), F1-skórem 0,85 (oproti 0,81) a výrazně vyšším ROC-AUC 0,93 (oproti 0,81). Nejvýznamnější zlepšení bylo pozorováno v odhadech nejistoty parametrů, kde délka věrohodnostních intervalů byla v průměru snížena o 15,1 % ve srovnání s klasickým přístupem, s vylepšeními v rozmezí od 10,3 % do 28,2 % u různých proměnných.