Мы хотим поделиться с вами хронологией работы над вчерашней проблемой. Рассказываем, как это происходило с нашей стороны
23:55 Сотрудники технической поддержки в обычном режиме отвечают на рядовые вопросы, дежурные администраторы решают запланированные задачи. Спокойный рабочий вечер вторника.
23:57 Внезапно телевизоры у технической поддержки и дежурных администраторов с нагиосом залились красным цветом — наша система мониторинга забила тревогу.
Огромное количество сообщений о недоступности различных сервисов говорит о масштабности проблемы.
00:00 Дежурный администратор, проведя первичную диагностику, сообщает руководству о недоступности нашей инфраструктуры.
00:01 В нашей группе в VK появляется первый комментарий с вопросом «Что с сайтом?». Через 15 минут в группе будет больше 100 новых комментариев.
00:04 Мы вышли на связь ВК, чтобы вы были спокойны и знали: мы в курсе проблемы и занимаемся ее решением.
00:06 Один из главных подозреваемых — наш головной роутер. Одна из возможных причин — физическая неисправность. Группа эксплуатации (отвечающие за работу физического оборудования) получает информацию о возникшей проблеме.
00:09 Машины с инженерами мчатся в наш основной и резервный дата-центры, чтобы на месте проверить физическое состояние оборудования.
00:12 К решению проблемы подключена большая часть наших инженеров, их действия координируются в специальном чате. Проверяются всевозможные гипотезы.
00:15 Предположение о физической неисправности роутера не подтвердилось, резервный роутер-близнец остается не востребован. Проверяем историю последних действий.
00:18 Диагностика показала, что в конфигурацию роутера перед началом инцидента вносились изменения, связанные с отменой ограничения доступа к одному из серверов (которое ранее было добавлено в рамках борьбы с DDoS-атакой). Проще говоря, выполнялась рутинная процедура удаления специальных правил из конфигурации роутера, которая не могла привести к подобной проблеме.
00:20 Продолжается анализ конфигурации роутера. В это же время другие специалисты проверяют оставшиеся гипотезы, связанные с dns и bgp, внутренней сетью. Предположения, связанные непосредственно с самой сетью позднее не подтвердятся — у нас отличная связность и мы используем множество резервных интернет-каналов, так что падение нескольких из них не может повлиять на доступность серверов.
00:30 В группе VK уже почти 300 новых сообщений, более 100 новых подписчиков и 9 хэштегов #бегетживи
00:42 Более детальный анализ конфигурации роутера показал, что одно из последних изменений было выполнено некорректно (удаление того самого правила для борьбы с DDoS-атакой). Осталась его часть, которая запрещала доступ для всего трафика. Помимо этого, после этого изменения было сделано еще несколько незначительных коммитов. В используемом нами роутере Juniper существует автоматический возврат к предыдущей конфигурации, если в течение 5 минут новая конфигурация не была отдельно подтверждена. После возникновения сбоя изменения, которые были добавлены уже после ошибочного, не были подтверждены. Поэтому роутер автоматически восстановил некорректную конфигурацию, ограничив доступ к самому себе, и прекратил принимать внешний трафик.
00:43 В группе VK более 450 новых комментариев.
00:42 Откат на несколько коммитов полностью устраняет проблему. Работа восстановлена, сайты вновь доступны.
00:45 В группе VK появляются первые возгласы «заработало!»
00:50 Сотрудники технической поддержки начинают обрабатывать новые сообщения в тикет-системе и по телефону, дежурные администраторы, выдохнув, откидываются на спинки кресел. Впереди разбор полетов.
Спасибо, что в это время сохраняли чувство юмора, играли в города, делились своим опытом и поддерживали друг друга. Мы собрали лучших специалистов и постарались устранить проблему в самые короткие сроки, чтобы доступ к вашим проектам и сайтам был как можно более оперативно восстановлен. Нам предстоит еще многое проанализировать и сделать, чтобы эта проблема больше не повторилась, в данный же момент мы хотим еще раз поблагодарить всех вас за терпение, понимание и доверие.