Рейтинг
0.00

Дата-центры OVH

33 читателя, 1335 топиков

Incident Roubaix

travaux.ovh.net/?do=details&id=28244

Сегодня утром у нас был инцидент в оптической сети, которая соединяет наш сайт Roubaix (RBX) с 6 из 33 пунктов присутствия (POP) нашей сети: Paris (TH2 и GSW), Франкфурт (FRA), Амстердам (AMS ), Лондон (LDN), Брюссель (BRU).

Сайт RBX подключается через 6 оптических волокон к этим 6 СОЗ: 2x RBX <> BRU, 2x RBX <> LDN, 2x RBX <> Paris (1x RBX <> TH2 и 1x RBX <> GSW). Эти 6 оптических волокон соединены с системами оптических узлов, которые позволяют иметь 80 длин волн 100 Гбит / с на каждом оптическом волокне.

Для каждого 100G, подключенного к маршрутизаторам, мы используем 2 оптических пути, которые географически различны. В случае обрезки оптического волокна, знаменитый «удар назад», система переконфигурируется в 50 мс, и все ссылки остаются в UP. Чтобы подключить RBX к POP, мы имеем емкость 4,4 Тбит / с, 44x100G: 12x100G до Парижа, 8x100G до Лондона, 2x100G до Брюсселя, 8x100G до Амстердама, 10x100G до Франкфурта, 2x100G до DC GRA и 2x100G до DC SBG.

В 8:01 все 100G-ссылки, 44x100G, были потеряны. Учитывая систему резервирования, которую мы создали, корень проблемы не может быть физическим отключением 6 оптических волокон одновременно. Мы не смогли выполнить диагностику удаленного шасси, поскольку интерфейсы управления были исправлены. Нам пришлось вмешаться непосредственно в комнаты маршрутизации, чтобы манипулировать шасси: отсоедините кабели между корпусом и перезапустите систему и, наконец, выполните диагностику с производителем оборудования. Попытки перезагрузить систему потребовали много времени, потому что для каждого шасси требуется от 10 до 12 минут для загрузки. Это основная причина продолжительности инцидента.

Диагностика: все используемые нами карты транспондеров, ncs2k-400g-lk9, ncs2k-200g-cklc, находятся в состоянии ожидания. Одним из возможных источников такого состояния является потеря конфигурации. Таким образом, мы восстановили резервную копию и вернули конфигурацию, которая позволила системе перенастроить все карточки транспондеров. 100G в маршрутизаторах вернулись естественным образом, и связь RBX с 6 POP была восстановлена ​​в 10:34.

Это явно ошибка программного обеспечения на оптическом оборудовании. База данных с конфигурацией сохраняется 3 раза и копируется в 2 контрольные карты. Несмотря на всю эту безопасность, база исчезла. Мы будем работать с OEM, чтобы найти источник проблемы и помочь исправить ошибку. Мы не ставим под сомнение доверие у производителя оборудования, даже если этот тип ошибок особенно важен. Время безотказной работы — это вопрос дизайна, который учитывает все случаи, в том числе когда ничего не работает. Режим параноида в Ovh должен быть продвинут еще во всех наших проектах.

Ошибки могут существовать, инциденты, которые влияют на наших клиентов, нет. В Ovh обязательно есть ошибка, поскольку, несмотря на все инвестиции в сеть, волокна, технологии, у нас просто есть 2 часа простоя всей нашей инфраструктуры в Рубе.

Одним из решений является создание двух систем оптических узлов вместо одного. 2, что означает 2 базы данных, и поэтому в случае потери конфигурации только одна система не работает. Если 50% ссылок проходит через одну из систем, сегодня мы потеряли бы 50% емкости, но не 100% ссылок. Это один из проектов, которые мы начали 1 месяц назад, было заказано шасси, и мы получим их в ближайшие дни. Мы можем начать работу по настройке и миграции за 2 недели. Учитывая сегодняшний инцидент, этот проект становится приоритетом для всех наших инфраструктур, всех DC, всех СОЗ.

В сфере предоставления облачных инфраструктур остаются только те, которые являются параноидальными. Качество обслуживания является следствием 2-х элементов. Все ожидаемые инциденты «по дизайну». И инциденты, которые мы узнали из наших ошибок. Этот инцидент приводит нас к тому, чтобы поднять планку еще выше, чтобы приблизиться к нулевому риску.

Мы искренне сожалеем о пропуске 2H33 минут на сайте RBX. В ближайшие дни, пострадавшие клиенты получат электронное письмо, чтобы инициировать обязательства SLA.

OVH - решение для процесса глубокого обучения



OVH, поставщик облачных решений, станет одним из первых в Европе, предлагающим суперкомпьютер NVIDIA DGX-1 с восемью ускорителями GPU Tesla V100, предназначенными для машинного обучения и глубокого обучения, в качестве инфраструктуры ИИ. сервисная модель. Это позволит пользователям наслаждаться огромной вычислительной мощностью суперкомпьютера, не тратя значительную сумму денег. Эта передовая технология, предлагаемая OVH, подтверждает позицию группы как пионера в области цифровых инноваций.

NVIDIA DGX-1 — это готовая к использованию система с примерно 800 процессорами и 96 раз быстрее, чем процессоры. Он был создан для поддержки продвинутых проектов, таких как глубокая обучающая машина. Глубокое обучение включает в себя анализ сложных, многоуровневых искусственных нейронных сетей, благодаря которым мощные компьютерные системы учатся распознавать образы, шаблоны и объекты, анализируя огромные наборы данных.
NVIDIA DGX-1 оснащена системой управления контейнерами и программным обеспечением, предназначенным для ускорения обучения на 30% по сравнению с другими технологиями. Это идеально подходит для тех, кто заинтересован в тестировании, использовании и разработке систем, объединяющих Big Data с искусственным интеллектом.
Эти технологии учатся решать проблемы с использованием огромных объемов данных за очень короткий промежуток времени, имитируя человеческий процесс сбора знаний на основе накопленного опыта. Глубокие нейронные сети позволят провести анализ коллекций Big Data за очень короткое время.

Данные организованы в слои с использованием сложных параметров для выполнения таких операций, как идентификация изображения. Большие коллекции (например, видео на YouTube) классифицируются. Это позволяет вам разрабатывать и создавать новые приложения, которые используют не только большие данные, но и механизмы глубокого обучения и машинное обучение.
Тема оцифровки завораживает как научный мир, так и бизнес, потому что оба сектора являются движущей силой развития. OVH помогает ослабить потенциал бездействия в данных, обработав его в облаке. Это привлекательное решение для всех крупных сборщиков данных, таких как здравоохранение, финансы и электронная коммерция. OVH также предлагает лучшую защиту конфиденциальных данных: как глобальный игрок, он полностью реализует Европейские стандарты защиты данных (RODO) и имеет необходимые сертификаты безопасности (включая ISO / IEC 27001, SOC 1 и SOC 2 Type II, PCI DSS и другие),
В каждом секторе искусственный интеллект, основанный на вычислительной мощности GPU, становится стратегическим игроком в области цифровых преобразований », — сказал Барт Шнайдер, старший директор CSP EMEA в NVIDIA.« OVH предоставляет возможности этой модели своим клиентам, способствуя их быстрому доступу к инновациям ».