Как ты подходишь к SRE практикам в разработке?

Middle

132 просмотров

AFK Offer AI

SLO/SLI: определить что значит "работает" для юзера (latency P99 < 200ms, error rate < 0.1%). Error budget: пока есть бюджет — релизим фичи, кончился — стабилизируем. Observability: metrics (RED — Rate, Errors, Duration), logs (structured), traces. Alerting: на симптомы (error rate), не на причины (CPU). Runbooks для каждого алерта. Chaos engineering для проверки resilience.

Следующий вопрос

Как ты обеспечиваешь backward compatibility при изменениях API?