Alerting strategy: алертить только на то, что требует немедленных действий человека. Правила: каждый алерт должен иметь runbook; алерты на симптомы (высокая latency для пользователей), не причины (высокий CPU); severity должна отражать реальный impact; no-action алерты → удалить или понизить до info. Alert fatigue — главная проблема: если on-call игнорирует алерты — система сломана. USE метод (Utilization, Saturation, Errors) и RED метод (Rate, Errors, Duration) как основа.
Как строить правильную alerting стратегию?
Middle
286 просмотровAFK Offer AI
Что такое RTO и RPO?