Что такое MTTR, MTBF и MTTA?

Middle
291 просмотров
AFK Offer AI

MTTR (Mean Time To Recovery/Repair) — среднее время восстановления после инцидента. MTBF (Mean Time Between Failures) — среднее время между сбоями. MTTA (Mean Time To Acknowledge) — среднее время от алерта до начала реагирования. Высокая надёжность: большой MTBF, малый MTTR. MTTA измеряет скорость реакции on-call команды. Улучшение MTTR: автоматизация восстановления, runbooks, better observability. Улучшение MTBF: chaos engineering, load testing, redundancy. Эти метрики — основа SRE reporting.

Следующий вопрос

Что делать при disk full на production сервере?