TARMOLOV_WORK Telegram 60
Неожиданная связь

Я рассказывал об инциденте с неправильным ключом или о Кассандре. Сегодня пойдет речь о более серьезном инциденте — LSR с нашим внешним сервисом.

Начало "традиционное": сработали мониторинги → увеличились тайминги → сервис перестал обрабатывать нагрузку.

Проблема видна как внутренним, так и внешним пользователям. SRE кричит на опенспейс "ФАКАП!". 

Девопсы включились в работу:
- трафик не изменился
- подозрительные запросы отсутствуют
- в логах нет ничего подозрительного

Вдруг проблема исчезает так же неожиданно, как и появилась. Сидим в непонимании и пытаемся локализовать проблему.

Заходит коллега из соседней команды:
— Слушайте, я тут отключаю минорный бекенд. Там трафика — “слёзы”. Отключил, но сразу откатил, т.к. увидел у вас проблему. Это я вас задел?
— Нет. Это точно не связано. Можно вырубать.
— Ага. Тогда я через минут 10 опять его вырублю.

Коллега ушел, а мы продолжили расследование инцидента. Проходят 10 мин.

Срабатывают мониторинги → увеличиваются тайминги → сервис через пару минут перестанет обрабатывать нагрузку.

Таких совпадений не бывает! Пишем коллеге, чтобы вернул свой бекенд в строй. Проблема исчезает.

Оказалось, что наш сервис использовал отключаемый бекенд глубоко в “кишках” сервиса. Этот фрагмент кода написан много лет назад и жил по принципу “работает — не трогай”. Вызов бекенда был без таймаута, т.е. если бекенд не отвечал, то сервис ждал неразумное время. Также не было никакого логирования, что сильно усложнило диагностику.

В рамках LSR исправили проблему и настроили правильную деградацию сервиса.

Мораль: Bus factor — безумно важен! Если вам достался сервис в наследство, то разберите его на кирпичики. Это поможет вовремя наложить заплатку и не допустить инцидента в будущем.

#байки #инциденты



tgoop.com/tarmolov_work/60
Create:
Last Update:

Неожиданная связь

Я рассказывал об инциденте с неправильным ключом или о Кассандре. Сегодня пойдет речь о более серьезном инциденте — LSR с нашим внешним сервисом.

Начало "традиционное": сработали мониторинги → увеличились тайминги → сервис перестал обрабатывать нагрузку.

Проблема видна как внутренним, так и внешним пользователям. SRE кричит на опенспейс "ФАКАП!". 

Девопсы включились в работу:
- трафик не изменился
- подозрительные запросы отсутствуют
- в логах нет ничего подозрительного

Вдруг проблема исчезает так же неожиданно, как и появилась. Сидим в непонимании и пытаемся локализовать проблему.

Заходит коллега из соседней команды:
— Слушайте, я тут отключаю минорный бекенд. Там трафика — “слёзы”. Отключил, но сразу откатил, т.к. увидел у вас проблему. Это я вас задел?
— Нет. Это точно не связано. Можно вырубать.
— Ага. Тогда я через минут 10 опять его вырублю.

Коллега ушел, а мы продолжили расследование инцидента. Проходят 10 мин.

Срабатывают мониторинги → увеличиваются тайминги → сервис через пару минут перестанет обрабатывать нагрузку.

Таких совпадений не бывает! Пишем коллеге, чтобы вернул свой бекенд в строй. Проблема исчезает.

Оказалось, что наш сервис использовал отключаемый бекенд глубоко в “кишках” сервиса. Этот фрагмент кода написан много лет назад и жил по принципу “работает — не трогай”. Вызов бекенда был без таймаута, т.е. если бекенд не отвечал, то сервис ждал неразумное время. Также не было никакого логирования, что сильно усложнило диагностику.

В рамках LSR исправили проблему и настроили правильную деградацию сервиса.

Мораль: Bus factor — безумно важен! Если вам достался сервис в наследство, то разберите его на кирпичики. Это поможет вовремя наложить заплатку и не допустить инцидента в будущем.

#байки #инциденты

BY Тармолов про работу


Share with your friend now:
tgoop.com/tarmolov_work/60

View MORE
Open in Telegram


Telegram News

Date: |

Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group.
from us


Telegram Тармолов про работу
FROM American