Как организовать Disaster Recovery?

Senior
236 просмотров
AFK Offer AI

DR организация: определить RTO/RPO для каждого сервиса, выбрать стратегию (Backup&Restore, Pilot Light, Warm Standby, Active-Active), задокументировать DR runbook, назначить DR owner, автоматизировать failover где возможно, регулярно тестировать (DR drill минимум раз в год). Для AWS: multi-region с Route53 failover, cross-region RDS replica, S3 CRR, автоматические snapshots. DR тест: перевести трафик на DR регион, убедиться что всё работает, вернуть. Measure и улучшать реальный RTO по результатам тестов.

Следующий вопрос

Что такое feature flags и их роль в SRE?