Сегодня в 5 утра по мск проводились плановые работы



Сегодня в 5 утра по мск проводились плановые работы по обновлению программного обеспечения коммутаторов уровня Super Spine. Прерываний и деградации сетевой доступности не ожидалось, однако в ходе работ возникли проблемы.

Версия JunOS 20.4R3-S1.3, протестированная на стенде и рекомендованная вендором как самая беспроблемная, после обновления супер-спайнов привела к катастрофическим последствиям: BGP-соседи через пиринговые интерфейсы (находящиеся в состоянии Up) стали недоступны по IP. Нарушилась связность между всеми уровнями IP-фабрики, в том числе IP-магистрали между дата-центрами WebDC и IXcellerate.

Учитывая частичную работоспособность сети, наши инженеры предприняли попытку к восстановлению нерабочих сетевых функций без отката к предыдущей версии прошивки, но безуспешно. И только полный откат к предыдущей версии ПО помог восстановить связность внутри всей IP-фабрики. Также чуть позднее пришлось откатить JunOS 20.4R2-S2 с одного из leaf-коммутаторов на 20.2R3-S3.7.

Как итог, срок решения проблемы увеличили следующие факторы:
  • попытки решить проблему без отката оказались безуспешными,
  • откат двух супер-спайнов (заливка, прошивка, ребут) потребовал значительного времени,
  • дополнительное время занял откат ОС на одном из leaf-коммутаторов.
Выделенные серверы OVH
Выделенные серверы Hetzner

0 комментариев

Оставить комментарий