Runbook — пошаговая инструкция для дежурного инженера: что делать при конкретном алерте. Структура: описание алерта, что значит, как проверить, шаги решения, эскалация. Пример: "High Error Rate" → проверь логи (grep ERROR), проверь зависимости (ping DB/Redis), рестартни pod, если не помогло — зови backend team. Хороший runbook пишется так, чтобы человек без контекста мог починить проблему в 3 ночи. Обновляй после каждого инцидента — runbook живой документ.
Как писать runbook?
Junior
168 просмотровAFK Offer AI
Как реализовать job queue через PostgreSQL?