Рейтинг
0.00

Дата-центры OVH

10 читателей, 477 топиков

Incident Roubaix

travaux.ovh.net/?do=details&id=28244

Сегодня утром у нас был инцидент в оптической сети, которая соединяет наш сайт Roubaix (RBX) с 6 из 33 пунктов присутствия (POP) нашей сети: Paris (TH2 и GSW), Франкфурт (FRA), Амстердам (AMS ), Лондон (LDN), Брюссель (BRU).

Сайт RBX подключается через 6 оптических волокон к этим 6 СОЗ: 2x RBX <> BRU, 2x RBX <> LDN, 2x RBX <> Paris (1x RBX <> TH2 и 1x RBX <> GSW). Эти 6 оптических волокон соединены с системами оптических узлов, которые позволяют иметь 80 длин волн 100 Гбит / с на каждом оптическом волокне.

Для каждого 100G, подключенного к маршрутизаторам, мы используем 2 оптических пути, которые географически различны. В случае обрезки оптического волокна, знаменитый «удар назад», система переконфигурируется в 50 мс, и все ссылки остаются в UP. Чтобы подключить RBX к POP, мы имеем емкость 4,4 Тбит / с, 44x100G: 12x100G до Парижа, 8x100G до Лондона, 2x100G до Брюсселя, 8x100G до Амстердама, 10x100G до Франкфурта, 2x100G до DC GRA и 2x100G до DC SBG.

В 8:01 все 100G-ссылки, 44x100G, были потеряны. Учитывая систему резервирования, которую мы создали, корень проблемы не может быть физическим отключением 6 оптических волокон одновременно. Мы не смогли выполнить диагностику удаленного шасси, поскольку интерфейсы управления были исправлены. Нам пришлось вмешаться непосредственно в комнаты маршрутизации, чтобы манипулировать шасси: отсоедините кабели между корпусом и перезапустите систему и, наконец, выполните диагностику с производителем оборудования. Попытки перезагрузить систему потребовали много времени, потому что для каждого шасси требуется от 10 до 12 минут для загрузки. Это основная причина продолжительности инцидента.

Диагностика: все используемые нами карты транспондеров, ncs2k-400g-lk9, ncs2k-200g-cklc, находятся в состоянии ожидания. Одним из возможных источников такого состояния является потеря конфигурации. Таким образом, мы восстановили резервную копию и вернули конфигурацию, которая позволила системе перенастроить все карточки транспондеров. 100G в маршрутизаторах вернулись естественным образом, и связь RBX с 6 POP была восстановлена ​​в 10:34.

Это явно ошибка программного обеспечения на оптическом оборудовании. База данных с конфигурацией сохраняется 3 раза и копируется в 2 контрольные карты. Несмотря на всю эту безопасность, база исчезла. Мы будем работать с OEM, чтобы найти источник проблемы и помочь исправить ошибку. Мы не ставим под сомнение доверие у производителя оборудования, даже если этот тип ошибок особенно важен. Время безотказной работы — это вопрос дизайна, который учитывает все случаи, в том числе когда ничего не работает. Режим параноида в Ovh должен быть продвинут еще во всех наших проектах.

Ошибки могут существовать, инциденты, которые влияют на наших клиентов, нет. В Ovh обязательно есть ошибка, поскольку, несмотря на все инвестиции в сеть, волокна, технологии, у нас просто есть 2 часа простоя всей нашей инфраструктуры в Рубе.

Одним из решений является создание двух систем оптических узлов вместо одного. 2, что означает 2 базы данных, и поэтому в случае потери конфигурации только одна система не работает. Если 50% ссылок проходит через одну из систем, сегодня мы потеряли бы 50% емкости, но не 100% ссылок. Это один из проектов, которые мы начали 1 месяц назад, было заказано шасси, и мы получим их в ближайшие дни. Мы можем начать работу по настройке и миграции за 2 недели. Учитывая сегодняшний инцидент, этот проект становится приоритетом для всех наших инфраструктур, всех DC, всех СОЗ.

В сфере предоставления облачных инфраструктур остаются только те, которые являются параноидальными. Качество обслуживания является следствием 2-х элементов. Все ожидаемые инциденты «по дизайну». И инциденты, которые мы узнали из наших ошибок. Этот инцидент приводит нас к тому, чтобы поднять планку еще выше, чтобы приблизиться к нулевому риску.

Мы искренне сожалеем о пропуске 2H33 минут на сайте RBX. В ближайшие дни, пострадавшие клиенты получат электронное письмо, чтобы инициировать обязательства SLA.

две первые информации

travaux.ovh.net/?do=details&id=28256

Сегодня утром у нас было два отдельных инцидента, которые не имеют никакого отношения друг к другу. Первый инцидент затрагивает наш сайт в Страсбурге (SBG) и второй Roubaix (RBX). На SBG мы имеем 3 центра обработки данных и 1 в стадии строительства. На RBX мы имеем 7 центров обработки данных.

SBG:
На SBG у нас была электрическая проблема. Питание восстановлено, а службы перезапускаются. Некоторые клиенты UP, а другие пока нет.
Если ваш сервис еще не UP, время восстановления составляет от 5 минут до 3-4 часов. Наша система мониторинга позволяет нам узнать, какой клиент по-прежнему влияет, и мы работаем над их устранением.

RBX:
У нас возникла проблема в оптической сети, которая позволяет RBX подключаться к точкам соединения, которые мы имеем в Париже, Франкфурте, Амстердаме, Лондоне, Брюсселе. Источником проблемы является программная ошибка на оптическом оборудовании, которая привела к потере конфигурации и разрешению соединения с нашим сайтом RBX. Мы передали резервную копию конфигурации программного обеспечения, как только мы диагностировали источник проблемы, и DC снова доступен. Инцидент на RBX закрыт. С производителем мы ищем происхождение ошибки программного обеспечения, а также как избежать такого критического инцидента.

Мы находимся в процессе получения данных, чтобы предоставить вам информацию о времени восстановления SBG для всех служб / клиентов. Кроме того, мы дадим все технические подробности о происхождении этих двух инцидентов.

Мы искренне сожалеем. Мы только что испытали 2 одновременных и независимых события, которые повлияли на всех клиентов RBX с 8:15 до 10:37 и всех клиентов SBG с 7:15 до 11:15. Мы продолжаем работать над клиентами, которые еще не UP в SBG.

travaux.ovh.net/vms/index_sbg1.html
travaux.ovh.net/vms/index_sbg2.html
travaux.ovh.net/vms/index_sbg4.html



Авария с электричеством в SBG

twitter.com/olesovhcom/status/928521489426632705




status.ovh.net/?do=details&id=15162

Сначала лег SBG
Через пол часа утянул маршрутизацию RBX за собой

GRA мой любимый — работает
По моей статистике, не раз писал, что считаю что в GRA меньше всего инцидентов происходило за года.
BHS Канада и новые дц тоже работают.