tgoop.com/tarmolov_work/19
Last Update:
Неправильный ключ
Сегодня хочу рассказать про самый первый факап в Яндексе, свидетелем которого я стал.
Чтобы лучше понять что произошло, нужно дать немного контекста. Наши веб-карты в геосервисах использует для отображение карты Javascript API, которую мы поставляем наружу. Это классический “догфудинг”. API подключается на веб-странице и предоставляет нужную функциональность для отображения карты. Чтобы мы могли идентифицировать клиента, при подключении API необходимо передавать “ключ” (специальную сгенерированную строку).
Этот инцидент произошел более 10 лет. В то время веб-карты работали на самой первой версии нашего API. Эта версия API при передаче неправильного ключа “громко” ругалась в виде alert("Неправильный ключ")
. Как вы можете догадаться, в одном из релизов веб-карт стали передавать неправильный ключ.
Выкатили релиз. Мой руководитель открывает карты, чтобы после релиза немного “потыкать” интерфейс и убедиться, что все работает ожидаемо. И вместо карты ему вылетает алерт “Неправильный ключ”. Решает перепроверить url в браузере. Убеждается, что это боевое окружение. Все пользователи видят тоже самое, что и он.
РЕЖИМ ПАНИКИ MODE ON
На факапах всегда веселее с друзьями и коллегами, поэтому мой руководитель сразу голосом “призвал” (с щепоткой нецензурных слов) других разработчиков на эту “вечеринку”. Плохо помню детали и может где-то совру, но общую картинку расскажу скорее всего верно.
→ Проверяют конфигурацию проекта. Все верно. Ключ правильный. А в браузере — неправильный.
→ Разработчик отправляет заявку на откатывание релиза. Автовыкладка не срабатывает. Нужен админ.
→ Руководитель посылается гонца за админом.
→ Один из разработчиков заходит на сервер, чтобы выяснить причину.
→ Гонец сообщает, что админ ушел ужинать.
→ Звонят админу. Админ бросает недоеденную котлетку и бежит к разработке.
→ Разработчик выясняет, что в продакшене используется неверная конфигурация.
→ У всех права readonly на боевой сервер. Б-безопасность.
→ Прибегает запыхавшийся админ.
→ Админ пробует откатить релиз. Начинается процесс откатывания релиза.
→ Релиз откатился. Проверяют сервис и все наконец-то видят работающий сервис. Ура!
РЕЖИМ ПАНИКИ MODE OFF
На самом деле починку провели очень быстро. Сработали очень слаженно. Никто из пользователей не успел пожаловаться в поддержку на нерабочий сервис. Но команда сервиса получила неплохую порцию стресса, а админ недоел котлетку. Ну может про котлетку я и придумал, чтобы добавить экспрессии моему рассказу 🙂
#байки #инциденты
BY Тармолов про работу
Share with your friend now:
tgoop.com/tarmolov_work/19