Threshold alerting: CPU > 90% → alert. Проблема: CPU 90% может быть нормой, может не влиять на пользователей. SLO-based alerting: alert когда Error Budget горит слишком быстро (burn rate). Многооконный подход (Google SRE книга): fast burn (1х + 5-минутное окно) для быстрого обнаружения, slow burn (longer window) для медленных деградаций. Преимущества: каждый alert означает реальный impact на пользователей, нет false positives от кратковременных спайков, алертов меньше и они более actionable. Инструменты: Sloth, Pyrra генерируют правила автоматически.
Что такое SLO-based alerting и почему оно лучше threshold alerting?
Senior
221 просмотровAFK Offer AI
Чем COPY отличается от ADD в Dockerfile?