Процесс: Detection (алерт или пользователь) → Triage (severity, кого звать) → Mitigation (восстановить сервис любым способом, откат если нужно) → RCA (найти причину) → Postmortem. Incident Commander координирует, не копается в коде. Communicator держит стейкхолдеров в курсе. Во время инцидента: фокус на mitigation, не на root cause. Документируй в реальном времени. Severity levels: P0-P3 с разными response times.
Что такое incident management и как реагировать на production инциденты?
Senior
241 просмотровAFK Offer AI
Что такое compliance as code?