Как ты подходишь к SRE практикам в разработке?

Middle
103 просмотров
AFK Offer AI

SLO/SLI: определить что значит "работает" для юзера (latency P99 < 200ms, error rate < 0.1%). Error budget: пока есть бюджет — релизим фичи, кончился — стабилизируем. Observability: metrics (RED — Rate, Errors, Duration), logs (structured), traces. Alerting: на симптомы (error rate), не на причины (CPU). Runbooks для каждого алерта. Chaos engineering для проверки resilience.

Следующий вопрос

Как реализовать feed/timeline на Go?