tgoop.com/Java_Iibrary/1792
Last Update:
«99% аптайма достаточно».
Эту сказку слишком многие команды рассказывают сами себе.
А теперь математика:
• 99% аптайма —> примерно 7 часов простоя в месяц
• 99.9% —> около 40 минут
• 99.99% —> около 4 минут
Семь часов вроде не звучат страшно, но на масштабе это убивает доверие, срывает SLA и сжигает деньги.
И даунтайм не всегда выглядит как большой и громкий инцидент.
Он подкрадывается через такие вещи, как:
• платежка, которая теряет запросы без ретраев
• битый конфиг кэша, из-за которого трафик встаёт
• сервис, который тихо отваливается для части пользователей
Поэтому надёжность это не погоня за «100%». Это про системы, которые умеют гнуться, но не ломаться.
Ретраи. Circuit breakers. Фолбэки с сохранением работоспособности.
И правильные метрики — error budgets, а не красивые проценты для отчёта.
Потому что пользователю плевать на твой аптайм в дэшборде.
Ему важно, чтобы продукт работал, когда это реально нужно.
Так что когда кто-то снова скажет «99% это нормально», спроси его
Нормально для графика или нормально для клиента?