Incident management — процесс реагирования на сбои в production. Шаги: 1) Detect — алерты, мониторинг, пользователи сообщают. 2) Triage — определи severity (S1-S4). 3) Respond — назначь incident commander, собери команду. 4) Mitigate — останови bleeding (rollback, feature flag off, scale up). 5) Resolve — root cause fix. 6) Postmortem — анализ после. Коммуникация: статусная страница, Slack канал инцидента. Не чини root cause во время инцидента — сначала mitigation. На on-call ротации. PagerDuty или OpsGenie для алертов.