Что такое SRE практики?

Middle
179 просмотров
AFK Offer AI

SRE (Site Reliability Engineering) — подход Google к операционной надёжности. Ключевые концепции: SLI (метрика, например latency p99), SLO (цель, например p99 < 200ms), SLA (договор с клиентом с финансовыми последствиями). Error budget — если SLO 99.9%, можно "потратить" 0.1% на downtime. Пока бюджет есть — катим фичи быстро. Кончился — замедляемся и чиним надёжность. Toil — рутинная ручная работа, цель SRE — автоматизировать toil. Практики: мониторинг, alerting, capacity planning, incident response, postmortems. Книга: "Site Reliability Engineering" от Google — бесплатно онлайн.

Следующий вопрос

Что такое sharded map?