SLO мониторинг в Prometheus/Grafana: recording rules для SLI (доля успешных запросов), error budget calculation (1 - SLI - SLO), burn rate alerts (многооконный подход из Google SRE книги). Дашборд: текущий SLI, error budget remaining (%), burn rate. Sloth и Pyrra генерируют rules из простой YAML конфигурации. Еженедельные SLO review: сколько бюджета потрачено, причины, trend. При исчерпании бюджета — freeze deплоев, focus on reliability. Репорт для stakeholders: простые метрики без технических деталей, сравнение с SLA.
Как мониторить SLO на практике?
Senior
261 просмотровAFK Offer AI
Как организовать backup verification?