Fault Tolerant Systems: Building Reliability through Observability, Incident Response, and Problem Management

Thesis title: Fault Tolerant Systems: Building Reliability through Observability, Incident Response, and Problem Management
Author: Ageev, Aydar
Thesis type: Diploma thesis
Supervisor: Tyll, Ladislav
Opponents: Kasal, Jindřich
Thesis language: English
Abstract:
This Master’s Thesis introduces the Fault Tolerance Production System Framework (FT-PSF), a practical model for constructing fault-tolerant systems as an iterative operational process. The framework defines a closed reliability loop—spanning Critical User Journeys (CUJs), Service Level Indicators (SLIs), Service Level Objectives (SLOs), and Error Budgets—to quantify and act on real user impact. It integrates observability, incident response, and structured postmortem analysis into a unified reliability workflow. Applied as an explanatory framework to SAP Concur’s production environment, FT-PSF offers a systems-level understanding of how fault tolerance emerges through layered observability, continuous feedback, and operational discipline.
Keywords: Site Reliability Engineering ; Incident Management; Problem Management; Fault Tolerance System; Service Level Objectives
Thesis title: Odolné systémy: Budování spolehlivosti prostřednictvím observability, reakce na incidenty a řízení problémů
Author: Ageev, Aydar
Thesis type: Diplomová práce
Supervisor: Tyll, Ladislav
Opponents: Kasal, Jindřich
Thesis language: English
Abstract:
Tato diplomová práce představuje rámec Fault Tolerance Production System Framework (FT-PSF) – praktický model, který chápe budování fault-tolerantních systémů jako iterativní provozní proces. Rámec vymezuje uzavřenou smyčku spolehlivosti – od kritických uživatelských cest (Critical User Journeys, CUJ) přes ukazatele úrovně služeb (Service Level Indicators, SLI) a cíle úrovně služeb (Service Level Objectives, SLO) až k rozpočtům chyb (Error Budgets) – a umožňuje tak kvantifikovat a řízeně ovlivňovat reálný dopad na uživatele. FT-PSF sjednocuje observabilitu, reakci na incidenty a strukturovanou post-mortem analýzu do jednoho uceleného workflow spolehlivosti. Aplikace tohoto rámce na produkční prostředí SAP Concur ukazuje, jak se odolnost systémů rodí díky vrstvené observabilitě, kontinuální zpětné vazbě a důsledné provozní disciplíně.
Keywords: Cíl úrovně služby; Řízení incidentů ; Inženýrství spolehlivosti služeb; Systém odolný vůči chybám; Řízení problémů

Information about study

Study programme: International Management
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Business Administration
Department: Department of strategy

Information on submission and defense

Date of assignment: 8. 3. 2021
Date of submission: 14. 5. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: