Подготовка: runbook для типовых алертов, эскалация если не можешь решить за 30 мин. Во время: acknowledge алерт, assess impact, mitigate (перезапуск, rollback, scale up), потом root cause. После: обновить runbook, создать тикеты для prevention. Баланс: не геройствовать (спать когда можно), ротация чтобы не выгорать, компенсация за on-call.
Как ты справляешься с on-call дежурством?
Middle
118 просмотровAFK Offer AI
Что такое fan-out on write vs fan-out on read?