Что такое incident management и как реагировать на production инциденты?

Senior
241 просмотров
AFK Offer AI

Процесс: Detection (алерт или пользователь) → Triage (severity, кого звать) → Mitigation (восстановить сервис любым способом, откат если нужно) → RCA (найти причину) → Postmortem. Incident Commander координирует, не копается в коде. Communicator держит стейкхолдеров в курсе. Во время инцидента: фокус на mitigation, не на root cause. Документируй в реальном времени. Severity levels: P0-P3 с разными response times.

Следующий вопрос

Что такое compliance as code?