Как мониторить SLO на практике?

Senior

291 просмотров

AFK Offer AI

SLO мониторинг в Prometheus/Grafana: recording rules для SLI (доля успешных запросов), error budget calculation (1 - SLI - SLO), burn rate alerts (многооконный подход из Google SRE книги). Дашборд: текущий SLI, error budget remaining (%), burn rate. Sloth и Pyrra генерируют rules из простой YAML конфигурации. Еженедельные SLO review: сколько бюджета потрачено, причины, trend. При исчерпании бюджета — freeze deплоев, focus on reliability. Репорт для stakeholders: простые метрики без технических деталей, сравнение с SLA.

Следующий вопрос

Как организовать backup verification?