Alerting strategy документирует: что алертируем, как, кому, когда. Принципы: алерт = требует действия человека прямо сейчас; алертить на симптомы (высокая latency для юзера), не причины (высокий CPU); каждый алерт имеет runbook; severity определяет эскалацию. Структура: Critical → page + wake up, Warning → Slack + ticket, Info → только лог. Routing: бизнес метрики → product, инфраструктура → platform. Review алертов ежеквартально: убирать неactionable, настраивать пороги. Документировать в alerts-as-code (PrometheusRule).
Как написать alerting strategy?
Senior
266 просмотровAFK Offer AI
Как дебажить OOM Killer?