Thesis title: |
Fault Tolerant Systems: Building Reliability through Observability, Incident Response, and Problem Management |
Author: |
Ageev, Aydar |
Thesis type: |
Diploma thesis |
Supervisor: |
Tyll, Ladislav |
Opponents: |
Kasal, Jindřich |
Thesis language: |
English |
Abstract: |
This Master’s Thesis introduces the Fault Tolerance Production System Framework (FT-PSF), a practical model for constructing fault-tolerant systems as an iterative operational process. The framework defines a closed reliability loop—spanning Critical User Journeys (CUJs), Service Level Indicators (SLIs), Service Level Objectives (SLOs), and Error Budgets—to quantify and act on real user impact. It integrates observability, incident response, and structured postmortem analysis into a unified reliability workflow. Applied as an explanatory framework to SAP Concur’s production environment, FT-PSF offers a systems-level understanding of how fault tolerance emerges through layered observability, continuous feedback, and operational discipline. |
Keywords: |
Site Reliability Engineering ; Incident Management; Problem Management; Fault Tolerance System; Service Level Objectives |
Thesis title: |
Odolné systémy: Budování spolehlivosti prostřednictvím observability, reakce na incidenty a řízení problémů |
Author: |
Ageev, Aydar |
Thesis type: |
Diplomová práce |
Supervisor: |
Tyll, Ladislav |
Opponents: |
Kasal, Jindřich |
Thesis language: |
English |
Abstract: |
Tato diplomová práce představuje rámec Fault Tolerance Production System Framework (FT-PSF) – praktický model, který chápe budování fault-tolerantních systémů jako iterativní provozní proces. Rámec vymezuje uzavřenou smyčku spolehlivosti – od kritických uživatelských cest (Critical User Journeys, CUJ) přes ukazatele úrovně služeb (Service Level Indicators, SLI) a cíle úrovně služeb (Service Level Objectives, SLO) až k rozpočtům chyb (Error Budgets) – a umožňuje tak kvantifikovat a řízeně ovlivňovat reálný dopad na uživatele. FT-PSF sjednocuje observabilitu, reakci na incidenty a strukturovanou post-mortem analýzu do jednoho uceleného workflow spolehlivosti. Aplikace tohoto rámce na produkční prostředí SAP Concur ukazuje, jak se odolnost systémů rodí díky vrstvené observabilitě, kontinuální zpětné vazbě a důsledné provozní disciplíně. |
Keywords: |
Cíl úrovně služby; Řízení incidentů ; Inženýrství spolehlivosti služeb; Systém odolný vůči chybám; Řízení problémů |
Information about study
Study programme: |
International Management |
Type of study programme: |
Magisterský studijní program |
Assigned degree: |
Ing. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Business Administration |
Department: |
Department of strategy |
Information on submission and defense
Date of assignment: |
8. 3. 2021 |
Date of submission: |
14. 5. 2025 |
Date of defense: |
2025 |
Files for download
The files will be available after the defense of the thesis.