Odolné systémy: Budování spolehlivosti prostřednictvím observability, reakce na incidenty a řízení problémů
Název práce: | Fault Tolerant Systems: Building Reliability through Observability, Incident Response, and Problem Management |
---|---|
Autor(ka) práce: | Ageev, Aydar |
Typ práce: | Diploma thesis |
Vedoucí práce: | Tyll, Ladislav |
Oponenti práce: | Kasal, Jindřich |
Jazyk práce: | English |
Abstrakt: | This Master’s Thesis introduces the Fault Tolerance Production System Framework (FT-PSF), a practical model for constructing fault-tolerant systems as an iterative operational process. The framework defines a closed reliability loop—spanning Critical User Journeys (CUJs), Service Level Indicators (SLIs), Service Level Objectives (SLOs), and Error Budgets—to quantify and act on real user impact. It integrates observability, incident response, and structured postmortem analysis into a unified reliability workflow. Applied as an explanatory framework to SAP Concur’s production environment, FT-PSF offers a systems-level understanding of how fault tolerance emerges through layered observability, continuous feedback, and operational discipline. |
Klíčová slova: | Site Reliability Engineering ; Incident Management; Problem Management; Fault Tolerance System; Service Level Objectives |
Název práce: | Odolné systémy: Budování spolehlivosti prostřednictvím observability, reakce na incidenty a řízení problémů |
---|---|
Autor(ka) práce: | Ageev, Aydar |
Typ práce: | Diplomová práce |
Vedoucí práce: | Tyll, Ladislav |
Oponenti práce: | Kasal, Jindřich |
Jazyk práce: | English |
Abstrakt: | Tato diplomová práce představuje rámec Fault Tolerance Production System Framework (FT-PSF) – praktický model, který chápe budování fault-tolerantních systémů jako iterativní provozní proces. Rámec vymezuje uzavřenou smyčku spolehlivosti – od kritických uživatelských cest (Critical User Journeys, CUJ) přes ukazatele úrovně služeb (Service Level Indicators, SLI) a cíle úrovně služeb (Service Level Objectives, SLO) až k rozpočtům chyb (Error Budgets) – a umožňuje tak kvantifikovat a řízeně ovlivňovat reálný dopad na uživatele. FT-PSF sjednocuje observabilitu, reakci na incidenty a strukturovanou post-mortem analýzu do jednoho uceleného workflow spolehlivosti. Aplikace tohoto rámce na produkční prostředí SAP Concur ukazuje, jak se odolnost systémů rodí díky vrstvené observabilitě, kontinuální zpětné vazbě a důsledné provozní disciplíně. |
Klíčová slova: | Cíl úrovně služby; Řízení incidentů ; Inženýrství spolehlivosti služeb; Systém odolný vůči chybám; Řízení problémů |
Informace o studiu
Studijní program / obor: | International Management |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta podnikohospodářská |
Katedra: | Katedra strategie |
Informace o odevzdání a obhajobě
Datum zadání práce: | 8. 3. 2021 |
---|---|
Datum podání práce: | 14. 5. 2025 |
Datum obhajoby: | 6. 6. 2025 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/76546/podrobnosti |