DEVOPSSLIB Telegram 4176
💥 Массовая поломка AWS

20 октября произошёл крупнейший сбой AWS в истории. Упали Netflix, Reddit, PlayStation, Amazon и ещё 2500+ сервисов по всему миру. Давайте разберём, что пошло не так и какие выводы должен сделать каждый DevOps.

Что сломалось

Проблема началась с неправильной настройкой DNS в регионе US-East-1. Это старейший и самый нагруженный дата-центр Amazon, через который проходит трафик банков, стартапов, стриминговых платформ и AI-систем.

Когда приложение обращается к базе данных, оно спрашивает у AWS: «Где мои данные?». В тот день AWS отвечал: «Не знаю». Один неправильный конфиг оборвал связь между приложениями и их базами данных.

Что делать DevOps-инженеру

Один DNS-конфиг не должен откатывать цивилизацию на 50 лет назад. Но откатил. Вот что нужно проверить в своей инфраструктуре:

• Не держите все яйца в US-East-1. Разносите критичные сервисы по регионам.

• Мониторинг внешних зависимостей — если AWS падает, вы должны узнать об этом раньше ваших пользователей.

• Graceful degradation — приложение должно уметь работать в режиме ограниченной функциональности, а не просто умирать.

• Проверка конфигов — внедрите code review для инфраструктурного кода. IaC тоже может содержать критичные ошибки.

Этот инцидент показал, что современный интернет слишком хрупкий и слишком зависим от одного провайдера. Если не начать диверсифицировать риски сейчас, следующий чих AWS может остановить весь мир.

🐸 Библиотека devops'a

#разбор_полётов
Please open Telegram to view this post
VIEW IN TELEGRAM
👏4



tgoop.com/devopsslib/4176
Create:
Last Update:

💥 Массовая поломка AWS

20 октября произошёл крупнейший сбой AWS в истории. Упали Netflix, Reddit, PlayStation, Amazon и ещё 2500+ сервисов по всему миру. Давайте разберём, что пошло не так и какие выводы должен сделать каждый DevOps.

Что сломалось

Проблема началась с неправильной настройкой DNS в регионе US-East-1. Это старейший и самый нагруженный дата-центр Amazon, через который проходит трафик банков, стартапов, стриминговых платформ и AI-систем.

Когда приложение обращается к базе данных, оно спрашивает у AWS: «Где мои данные?». В тот день AWS отвечал: «Не знаю». Один неправильный конфиг оборвал связь между приложениями и их базами данных.

Что делать DevOps-инженеру

Один DNS-конфиг не должен откатывать цивилизацию на 50 лет назад. Но откатил. Вот что нужно проверить в своей инфраструктуре:

• Не держите все яйца в US-East-1. Разносите критичные сервисы по регионам.

• Мониторинг внешних зависимостей — если AWS падает, вы должны узнать об этом раньше ваших пользователей.

• Graceful degradation — приложение должно уметь работать в режиме ограниченной функциональности, а не просто умирать.

• Проверка конфигов — внедрите code review для инфраструктурного кода. IaC тоже может содержать критичные ошибки.

Этот инцидент показал, что современный интернет слишком хрупкий и слишком зависим от одного провайдера. Если не начать диверсифицировать риски сейчас, следующий чих AWS может остановить весь мир.

🐸 Библиотека devops'a

#разбор_полётов

BY Библиотека девопса | DevOps, SRE, Sysadmin




Share with your friend now:
tgoop.com/devopsslib/4176

View MORE
Open in Telegram


Telegram News

Date: |

Healing through screaming therapy best-secure-messaging-apps-shutterstock-1892950018.jpg The Channel name and bio must be no more than 255 characters long The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers. The SUCK Channel on Telegram, with a message saying some content has been removed by the police. Photo: Telegram screenshot.
from us


Telegram Библиотека девопса | DevOps, SRE, Sysadmin
FROM American