tgoop.com/devopslib/78
Last Update:
🚨 Почему алерты не спасут твой прод?
Ты настроил алерты. Все по учебнику: CPU > 80%, диск > 90%, latency > 500ms, таймауты, реджекты. Всё работает — ты уверен.
А теперь честно: сколько раз ты видел алерт, но не реагировал, потому что “это бывает” или “оно само отойдёт”? Или наоборот — алерт сработал, но уже поздно, инцидент в разгаре.
Алерты ≠ наблюдение.
Алерт — это реакция на симптом, а не на проблему. И если ты ловишь только симптомы — ты всегда будешь в роли пожарного, а не инженера.
Что делать?
✅ Строй SLO/SLA. Алерты — не про метрики, а про бизнес-цели.
✅ Категоризируй: ошибки уровня приложений, инфраструктуры и пользователей — требуют разных подходов.
✅ Визуализируй поведение системы: Grafana, dashboards, traces.
✅ Добавь runbook: алерт без инструкции — шум.
✅ Смотри в ретроспективу. Где ложные срабатывания? Где не хватило раннего сигнала?
Алерт — это не звонок в дверь, это сигнал тревоги. От него зависит, проснёшься ты вовремя или будешь объяснять CTO, почему уронил прод.
Подпишись 👉@devopslib
BY Библиотека девопса | DevOps, SRE, Sysadmin
Share with your friend now:
tgoop.com/devopslib/78