💥 Массовая поломка AWS

Библиотека девопса | DevOps, SRE, Sysadmin

💥 Массовая поломка AWS

20 октября произошёл крупнейший сбой AWS в истории. Упали Netflix, Reddit, PlayStation, Amazon и ещё 2500+ сервисов по всему миру. Давайте разберём, что пошло не так и какие выводы должен сделать каждый DevOps.

Что сломалось

Проблема началась с неправильной настройкой DNS в регионе US-East-1. Это старейший и самый нагруженный дата-центр Amazon, через который проходит трафик банков, стартапов, стриминговых платформ и AI-систем.

Когда приложение обращается к базе данных, оно спрашивает у AWS: «Где мои данные?». В тот день AWS отвечал: «Не знаю». Один неправильный конфиг оборвал связь между приложениями и их базами данных.

Что делать DevOps-инженеру

Один DNS-конфиг не должен откатывать цивилизацию на 50 лет назад. Но откатил. Вот что нужно проверить в своей инфраструктуре:

• Не держите все яйца в US-East-1. Разносите критичные сервисы по регионам.

• Мониторинг внешних зависимостей — если AWS падает, вы должны узнать об этом раньше ваших пользователей.

• Graceful degradation — приложение должно уметь работать в режиме ограниченной функциональности, а не просто умирать.

• Проверка конфигов — внедрите code review для инфраструктурного кода. IaC тоже может содержать критичные ошибки.

Этот инцидент показал, что современный интернет слишком хрупкий и слишком зависим от одного провайдера. Если не начать диверсифицировать риски сейчас, следующий чих AWS может остановить весь мир.

🐸 Библиотека devops'a

#разбор_полётов

Please open Telegram to view this post

VIEW IN TELEGRAM

👏4

www.tgoop.com/devopsslib/4176

1.01K viewsOct 22 at 07:36

tgoop.com/devopsslib/4176

Create: 2025-10-22
Last Update: 2025-10-25 09:30:25

Telegram News

💥 Массовая поломка AWS