Как написать alerting strategy?

Senior
266 просмотров
AFK Offer AI

Alerting strategy документирует: что алертируем, как, кому, когда. Принципы: алерт = требует действия человека прямо сейчас; алертить на симптомы (высокая latency для юзера), не причины (высокий CPU); каждый алерт имеет runbook; severity определяет эскалацию. Структура: Critical → page + wake up, Warning → Slack + ticket, Info → только лог. Routing: бизнес метрики → product, инфраструктура → platform. Review алертов ежеквартально: убирать неactionable, настраивать пороги. Документировать в alerts-as-code (PrometheusRule).

Следующий вопрос

Как дебажить OOM Killer?