Alert fatigue — состояние когда on-call получает столько алертов что перестаёт на них реагировать. Симптомы: алерты acknowledging без расследования, пропущенные критичные алерты в шуме. Решения: regular alert audit (удалить flapping и неactionable алерты), consolidation (group related alerts), better thresholds (не alerting при каждом spike), SLO-based alerting вместо symptom-based, routing по severity (все не SEV1 → ticket, не page). Цель: on-call получает < 5 pages за смену.
Что такое alert fatigue и как с ней бороться?
Middle
261 просмотровAFK Offer AI
Как дебажить Terraform state corruption?