Fault Tolerant Systems: Building Reliability through Observability, Incident Response, and Problem Management
Autor(ka) práce:
Ageev, Aydar
Typ práce:
Diploma thesis
Vedoucí práce:
Tyll, Ladislav
Oponenti práce:
Kasal, Jindřich
Jazyk práce:
English
Abstrakt:
This Master’s Thesis introduces the Fault Tolerance Production System Framework (FT-PSF), a practical model for constructing fault-tolerant systems as an iterative operational process. The framework defines a closed reliability loop—spanning Critical User Journeys (CUJs), Service Level Indicators (SLIs), Service Level Objectives (SLOs), and Error Budgets—to quantify and act on real user impact. It integrates observability, incident response, and structured postmortem analysis into a unified reliability workflow. Applied as an explanatory framework to SAP Concur’s production environment, FT-PSF offers a systems-level understanding of how fault tolerance emerges through layered observability, continuous feedback, and operational discipline.
Klíčová slova:
Site Reliability Engineering ; Incident Management; Problem Management; Fault Tolerance System; Service Level Objectives
Název práce:
Odolné systémy: Budování spolehlivosti prostřednictvím observability, reakce na incidenty a řízení problémů
Autor(ka) práce:
Ageev, Aydar
Typ práce:
Diplomová práce
Vedoucí práce:
Tyll, Ladislav
Oponenti práce:
Kasal, Jindřich
Jazyk práce:
English
Abstrakt:
Tato diplomová práce představuje rámec Fault Tolerance Production System Framework (FT-PSF) – praktický model, který chápe budování fault-tolerantních systémů jako iterativní provozní proces. Rámec vymezuje uzavřenou smyčku spolehlivosti – od kritických uživatelských cest (Critical User Journeys, CUJ) přes ukazatele úrovně služeb (Service Level Indicators, SLI) a cíle úrovně služeb (Service Level Objectives, SLO) až k rozpočtům chyb (Error Budgets) – a umožňuje tak kvantifikovat a řízeně ovlivňovat reálný dopad na uživatele. FT-PSF sjednocuje observabilitu, reakci na incidenty a strukturovanou post-mortem analýzu do jednoho uceleného workflow spolehlivosti. Aplikace tohoto rámce na produkční prostředí SAP Concur ukazuje, jak se odolnost systémů rodí díky vrstvené observabilitě, kontinuální zpětné vazbě a důsledné provozní disciplíně.
Klíčová slova:
Cíl úrovně služby; Řízení incidentů ; Inženýrství spolehlivosti služeb; Systém odolný vůči chybám; Řízení problémů