RBX network 30-03-2020 (45 min)

У нас проблема с сетевым подключением.
Наши команды на это.

travaux.ovh.net/?do=details&id=43793

Комментарий OVH — Понедельник, 30 марта 2020 года, 18:05
В настоящее время мы проверяем нашу магистральную и базовую сетевую инфраструктуру.
Услуги возвращаются гладко. Мы все еще расследуем

Комментарий OVH — Понедельник, 30 марта 2020 года, 18:08
В настоящее время мы сосредотачиваем наши исследования и действия на некоторой базовой инфраструктуре.

Комментарий OVH — Понедельник, 30 марта 2020 г., 18:15
Инцидент инфраструктуры подтвержден. Этот инцидент не связан с внешними событиями.

Комментарий OVH — Понедельник, 30 марта 2020 г., 18:25
Сервисы постепенно восстанавливаются после изоляции неисправной сетевой инфраструктуры.
Мы продолжаем следить за тем, чтобы услуги были восстановлены.

Комментарий OVH — понедельник, 30 марта 2020 г., 18:59
Дефектная инфраструктура, которую мы изолировали, расположена в RBX, что в первую очередь влияет на услуги этого DC.
Мы обострили этот инцидент у производителя с критической серьезностью для диагностики и нормализации избыточности сервиса.
В настоящее время работа нашей сети нормализовалась.

Комментарий OVH — понедельник, 30 марта 2020 г., 19:22
Этот сетевой инцидент затронул услуги наших центров обработки данных Roubaix с 5:01 до 5:40 вечера CEST, а также магистральный трафик, который там протекает.
Все службы теперь, похоже, восстановлены, и наши команды сейчас работают над тем, чтобы обеспечить полное восстановление.
Мы устраняем причину этого инцидента, о котором будет сообщено позже. До тех пор мы продолжаем держать вас в курсе наших достижений.

Комментарий OVH — понедельник, 30 марта 2020 г., 19:48
После подтверждения диагноза службой поддержки производителя мы постепенно возобновляем связи инфраструктуры, которую мы полностью изолировали.
Эта операция позволит вернуться к номинальной ситуации, за исключением материальной части данного оборудования, которая останется изолированной до дальнейшего уведомления.

Комментарий OVH — понедельник, 30 марта 2020 г., 21:15
Мы завершили активацию ссылок для обеспечения безопасности трафика через эту инфраструктуру.
Компонент по умолчанию остается изолированным до дальнейшего уведомления и будет заменен позже.

Комментарий OVH — понедельник, 30 марта 2020 г., 22:56
Мы только что завершили перенос оставшихся ссылок на изолированный компонент.
Поэтому ситуация нормализуется, и вся емкость снова полностью доступна.
Мы планируем заменить изолированный компонент в течение 72 часов, чтобы мы могли продолжить устранение неполадок.
Мы будем держать вас в курсе любых дальнейших действий.

RBX still down



Короче в 2х словах — должно было планово обновиться ПО на Cisco, но оно не обновилось.
travaux.ovh.net/?do=details&id=28835

RBX опять не доступен.
SBG GRA работают, как и CA PL UK DE

update
Между 3:15 и 4:30 мы пострадали от нестабильности в плане управления узлом Рубе. Эти неустойчивости не влияли на трафик. Нам пришлось принудительно переключиться с контрольных карт ведущего узла, чтобы вернуться в нормальное состояние. Мы работаем с производителем, чтобы понять происхождение этой проблемы и определить, может ли быть связано с недавними изменениями, сделанными на этом узле: обновление программного обеспечения и замена плат TNCE для контроля TNCS.
Узел в настоящее время находится в стабильном и нормальном состоянии.

Еще суммарно про DC Roubaix

travaux.ovh.net/?do=details&id=28244
Краткое описание инцидента:
8h00: все ссылки 100G на DC Roubaix не работают.
8h15: невозможно подключиться к узлу
8h40: Мы перезапускаем главный кадр электрически.
9:00 утра: узел все еще недоступен.
9:15 утра: мы отказываемся от узла управления.
9:30 утра: Мы восстанавливаем контроль над Рубе.
9h40: Мы можем видеть все кадры, но на кадре нет тревоги, и конфигурация схемы исчезла.
10h00: Мы добавляем последнюю резервную копию базы данных на узле
10h15: схемы снова начинают подниматься
10h30: Большинство схем подняты, 8 все еще
11:00: Некоторые транспондеры не могут быть обнаружены системой, а усилитель неисправен, запускается RMA усилителя.
11h30: Мы сбросили все приемоответчики, не распознанные, все схемы подняты
14h15: Замена усилителя завершена
14h30: все схемы вставлены, функциональные защиты и последние тревоги были деградированы.

Объяснение:
Согласно журналам, собранным из всех кадров узла Roubaix (20), кажется, что у нас было три отдельных события, каскадирующих на узле Roubaix:

1. Перегрузка процессора узла (главный кадр)
Каждый оптический узел имеет главный кадр, который позволяет обмениваться информацией между узлами и обмениваться со своими подчиненными кадрами. На этом главном кадре база данных сохраняется на двух картах контроллера, а также на ЖК-дисплее.

С 7:50 а. м., мы заметили, что Roubaix начинает испытывать проблемы связи с узлами, напрямую связанными с ним, и показывает перегрузку ЦП на главном кадре. На сегодняшний день мы не уверены, что вызвало перегрузку процессора. Несмотря на то, что SBG раньше, мы смотрим на все возможные причины. Команды производителя все еще следят за этой причиной. Мы запланировали звонок в субботу, 11 ноября, чтобы узнать больше о первопричине.

2. Переключение каскадов
После перегрузки процессора узел, главный кадр сделал переключение плат контроллера. После первого переключения контроллеров и перегрузки процессора мы столкнулись с известной ошибкой программного обеспечения Cisco. Эта ошибка происходит на больших узлах и приводит к переключению контроллеров, которое происходит каждые 30 секунд. Обычно это переключение стабилизируется. Эта ошибка будет полностью исправлена ​​выпуском 10.8, который будет доступен 31 ноября.

3. Потеря базы данных
В 8 часов утра, после события переключения каскада, мы столкнулись с другой ошибкой программного обеспечения, которая де-синхронизирует синхронизацию между двумя картами контроллера основного кадра. Эта ошибка вызвала команду, отправленную на карту заказа контроллера, чтобы установить базу данных на 0. Контроллеры главных кадров отправили эту новую информацию в рамы Slaves и потеряли все ссылки 100G из Roubaix. Эта ошибка исправлена ​​в версии 10.7 и теперь доступна.

План Действий:
Вот план действий, который будет реализован с рекомендацией производителя:
  • Две недели назад мы запустили замену контроллеров Roubaix и Gravelines с помощью TNCS (вместо TNCE), в результате чего вдвое увеличилась мощность процессора и удвоила оперативную память. Мы получили первые 2 вчера для Roubaix, и мы сделаем своп как можно скорее после проверки процесса с производителем. Мы собираемся подтолкнуть замену контроллеров на узлах Страсбурга и Франкфурта.
  • Мы сейчас нажимаем обновление программного обеспечения на всех узлах, чтобы перейти на 10.8
  • Теперь мы используем версию 10.5.2.6, мы должны пройти промежуточную версию 10.5.2.7, чтобы иметь возможность перейти в 10.7 или 10.8 после этого.
  • Мы разделим большие узлы (POP / DC) на наличие как минимум 2 контроллеров узлов на POP / DC

Резюме:
  • Шаг 1: Замена TNCE на RBX / GRA (ETA: понедельник, 13 ноября, вечер для RBX, вторник, 14 ноября, вечер для GRA)
  • Шаг 2: Обновление программного обеспечения в 10.8 (возможно ETA: 4 недели)
  • Шаг 3: Разделение больших узлов (ETA: TBA. Необходимо определить правильную стратегию и установить точный протокол, а затем работать над дорожной картой)


Стратегия потенциального разделения:
Можно полностью разделить сеть на 2 полностью независимых сети на уровне управления (всегда с возможностью повторного разбиения узлов внутри каждой сети). Благодаря «умному» красно-синему распределению оптических линий между двумя сетями каждый постоянный ток может достигать каждого POP в двух различных сетях.

Авария с электричеством в SBG

twitter.com/olesovhcom/status/928521489426632705




status.ovh.net/?do=details&id=15162

Сначала лег SBG
Через пол часа утянул маршрутизацию RBX за собой

GRA мой любимый — работает
По моей статистике, не раз писал, что считаю что в GRA меньше всего инцидентов происходило за года.
BHS Канада и новые дц тоже работают.