tgoop.com/devopsslib/4176
Last Update:
20 октября произошёл крупнейший сбой AWS в истории. Упали Netflix, Reddit, PlayStation, Amazon и ещё 2500+ сервисов по всему миру. Давайте разберём, что пошло не так и какие выводы должен сделать каждый DevOps.
Что сломалось
Проблема началась с неправильной настройкой DNS в регионе US-East-1. Это старейший и самый нагруженный дата-центр Amazon, через который проходит трафик банков, стартапов, стриминговых платформ и AI-систем.
Когда приложение обращается к базе данных, оно спрашивает у AWS: «Где мои данные?». В тот день AWS отвечал: «Не знаю». Один неправильный конфиг оборвал связь между приложениями и их базами данных.
Что делать DevOps-инженеру
Один DNS-конфиг не должен откатывать цивилизацию на 50 лет назад. Но откатил. Вот что нужно проверить в своей инфраструктуре:
• Не держите все яйца в US-East-1. Разносите критичные сервисы по регионам.
• Мониторинг внешних зависимостей — если AWS падает, вы должны узнать об этом раньше ваших пользователей.
• Graceful degradation — приложение должно уметь работать в режиме ограниченной функциональности, а не просто умирать.
• Проверка конфигов — внедрите code review для инфраструктурного кода. IaC тоже может содержать критичные ошибки.
Этот инцидент показал, что современный интернет слишком хрупкий и слишком зависим от одного провайдера. Если не начать диверсифицировать риски сейчас, следующий чих AWS может остановить весь мир.
#разбор_полётов

