SLO/SLI: определить что значит "работает" для юзера (latency P99 < 200ms, error rate < 0.1%). Error budget: пока есть бюджет — релизим фичи, кончился — стабилизируем. Observability: metrics (RED — Rate, Errors, Duration), logs (structured), traces. Alerting: на симптомы (error rate), не на причины (CPU). Runbooks для каждого алерта. Chaos engineering для проверки resilience.
Как ты подходишь к SRE практикам в разработке?
Middle
103 просмотровAFK Offer AI
Как реализовать feed/timeline на Go?