Как определить правильные SLI для сервиса?

Senior
256 просмотров
AFK Offer AI

SLI (Service Level Indicator) — метрика, отражающая пользовательский опыт. Для веб-сервисов: availability (доля успешных запросов), latency (p95/p99 время ответа), error rate, throughput. Для pipeline: freshness (свежесть данных), correctness. Правило: измерять со стороны пользователя, не сервера. Плохой SLI: CPU load — не коррелирует с user experience. Хороший SLI: % запросов с latency < 200ms. Выбирать 1-3 ключевых SLI на сервис, не перегружать метриками.

Следующий вопрос

Как писать PromQL запросы?