Что такое on-call?

Junior
635 просмотров
AFK Offer AI

On-call — дежурство, когда инженер отвечает на инциденты в нерабочее время. Обычно ротация по неделям: эта неделя твоя, следующая — коллеги. Когда срабатывает алерт, дежурному приходит уведомление (PagerDuty, OpsGenie), и он должен среагировать за определённое время (обычно 15-30 минут). Задача дежурного — стабилизировать систему, а не чинить root cause. Откатил деплой, перезапустил сервис, масштабировал — и спи дальше, а разбор причин утром. Хороший on-call — это когда мало алертов, потому что система надёжная, а runbooks покрывают типовые случаи.

Следующий вопрос

Как реализовать LRU кэш?