dysfunction on SBG's UPS6

09 июня 2020 года, 15:30
Мы обнаружили неисправность в электрической распределительной части ИБП 6.
Затронутые стойки: 72A / 73B / 75A / 75B
Воздействие: сбой сервера

09 июня 2020 года, 15:33
Около 4000 ip до сих пор недоступны

09 июня 2020 года, 15:51
Около 3000 ip до сих пор недоступны

09 июня 2020 года, 16:04
Около 2000 ip до сих пор недоступны

09 июня 2020 года, 16:06
большая часть ip down — это vps серверы

09 июня 2020 года, 16:14
Около 1000 ip до сих пор недоступны

09 июня 2020 года, 16:50
Мы перенастраиваем некоторые коммутаторы. (PCI / VPS)

09 июня 2020 года, 17:49
Около 100 серверов по-прежнему недоступны

09 июня 2020 года, 18:38
Около 30 серверов по-прежнему недоступны

09 июня 2020 года, 19:08
Около 13 серверов по-прежнему недоступны

09 июня 2020 г., 19:32
Около 10 серверов по-прежнему недоступны

09 июня 2020 года, 20:14
Около 5 серверов по-прежнему недоступны

09 июня 2020 года, 21:17
Все серверы доступны

Обзор датацентров 2019 года, шаг 1: Страсбург, Франция, Центральная Европа

Страсбург, 4 сентября 2018 года. Мы начали обзор наших инфраструктур с центрами данных Страсбурга, кодовыми именами SBG 1,2,3 и 4. Более месяца мы проведем экскурсию и осмотрим наши 12 сайтов и 28 центров обработки данных, развернутых по всему миру. Все перед нашим ежегодным мероприятием, саммит OVH, который состоится 18 октября в Париже.


Потому что новый год в OVH — 1 сентября, дата начала нашего финансового года. Поэтому мы будем приветствовать всю семью во всем мире, как и традиция. Мы делаем инвентарь, чтобы увидеть, где мы находимся в нашей программе роста и модернизации всей нашей инфраструктуры. Мы встречаем все команды, уделим время, чтобы посмотреть в зеркало заднего вида, и мы разделяем наши «хорошие резолюции». Это наш начинающий бизнес на 2019 год. Все, не забывая о дружелюбии, потому что, кстати, мы также делим выпивку, обед.

Какие новости от SBG?
Начнем с электричества, после аудита, который мы начали на всех наших сайтах. В партнерстве с нашим поставщиком мы обеспечили инфраструктуру среднего напряжения на сайте. Мы отделили SBG1 от SBG2. Каждый центр данных теперь независимо и эффективно защищен. Со своей стороны, SGB3 был разработан с низковольтными генераторами и полностью независимыми цепями ИБП от SBG1 / 2 и 4.

Имеется в общей сложности 10 генераторов BT, протестированных ежемесячно для проверки электрической безопасности сайта.

Мы также начали ввод в эксплуатацию центра обработки данных SBG3, который извлекает выгоду из последних стандартов OVH, включая новые генераторы, которые его часть (см. Фото ниже). SBG3 будет иметь критическую ИТ-мощность 4 МВт и сможет вмещать до 25 000 серверов, что почти удвоит текущую общую пропускную способность сайта.



Открытие SBG3 знаменует собой важный шаг в эволюции этого сайта, для которого существует множество проектов. Нам повезло, что мы можем арендовать соседнюю партию с возможностью покупки прямо напротив, что открывает новые перспективы для расширения и множество других решений для миграции SBG1 и SBG4.

Лето подходит к концу, и для команд сезон прошел хорошо, несмотря на жару. Это всегда тест для наших инфраструктур, как и для всех центров обработки данных, так и для людей, которые заботятся о ежедневном оборудовании. На этом первом этапе в Страсбурге я сохраняю команду из 30 очень добросовестных и сплоченных людей, которые в контексте новых стандартов качества OVH внушают мне большую уверенность в росте этого сайта.

Чтобы ответить на наше местное развитие, мы уже начали набор на должности техников инфраструктуры и ИТ-специалистов.

Четверг 7/09 состоялся второй этап нашего тура с центром обработки данных в Лимбурге в Германии, в нескольких миллисекундах от Страсбурга, по волокнам. Было вполне естественно путешествовать между Францией и Германией в тот же день, когда два бывших чемпиона мира по футболу встретились в Мюнхене!

Теперь вот длинный ответ

travaux.ovh.net/?do=details&id=28247

Сегодня утром в 7:23 утра у нас был большой перерыв на нашем сайте в Страсбурге (SBG): перерыв в электроснабжении, который оставил три датацентра без электроэнергии в течение 3,5 часов. SBG1, SBG2 и SBG4. Вероятно, это самый худший сценарий, который мог произойти с нами.

Участок SBG питается от линии электропередачи 20 кВА, состоящей из 2 кабелей, каждая из которых обеспечивает 10MVA. 2 кабеля работают вместе и подключены к одному и тому же источнику и к тому же автоматическому выключателю в ELD (Strasbourg Electricity Networks). Сегодня утром один из двух кабелей был поврежден, и автоматический выключатель отключил питание от центра обработки данных.

Сайт SBG предназначен для работы без ограничений по времени на генераторах. Для SBG1 и SBG4 мы создали первую резервную систему из 2 генераторов по 2MVA каждый, сконфигурированных в N + 1 и 20kv. Для SBG2 мы создали 3 группы в конфигурации N + 1 1,4 МВА каждый. В случае сбоя внешнего источника питания высоковольтные ячейки автоматически перенастраиваются с помощью моторной отказоустойчивой системы. Менее чем за 30 секунд дата-центры SBG1, SBG2 и SBG4 могут восстановить мощность с 20 кВА. Чтобы сделать это переключение без отключения питания серверов, у нас есть источники бесперебойного питания (ИБП), которые могут поддерживать питание до 8 минут.

Сегодня утром моторная отказоустойчивая система работала не так, как ожидалось. Команда запуска генераторов резервного копирования не была предоставлена ​​NSM. Это NSM (двигатель с нормальной аварийной ситуацией), предоставляемый поставщиком высоковольтных ячеек 20 кВ. Мы контактируем с производителем / супером, чтобы понять происхождение этой проблемы. Тем не менее, это дефект, который должен был быть обнаружен во время периодических испытаний на неисправность внешнего источника. Последний тест SBG для восстановления резервных копий был в конце мая 2017 года. Во время этого последнего теста мы приводили SBG только из генераторов в течение 8 часов без каких-либо проблем, и каждый месяц мы тестируем генераторы резервных копий бесплатно. И, несмотря на все это, этой системы было недостаточно, чтобы избежать сегодняшнего юрта.

Примерно в 10 часов нам удалось переключить ячейки вручную и снова начать работу центра обработки данных с генераторами. Мы попросили ELD отсоединить неисправный кабель от высоковольтных ячеек и снова включить автоматический выключатель только с одним из двух кабелей и, следовательно, были ограничены 10MVA. Это действие было выполнено ELD, и мощность была восстановлена ​​примерно в 10:30. Маршрутизаторы SBG были подключены к сети с 10:58 утра.

С тех пор мы работаем над перезагрузкой сервисов. Включение источника энергии с помощью энергии позволяет перезапускать серверы, но службы, запущенные на серверах, все равно необходимо перезапустить. Вот почему каждый сервис постепенно возвращается с 10:30. Наша система мониторинга позволяет нам узнать список успешно запущенных серверов и те, которые все еще имеют проблему. Мы вмешиваемся на каждом из этих серверов, чтобы выявить и решить проблему, которая препятствует ее перезапуску.

В 7:50 мы создали кризисную единицу в RBX, где мы централизовали информацию и действия всех вовлеченных команд. Грузовик из RBX был загружен запасными частями для SBG. Он прибыл в пункт назначения около 17:30. Чтобы помочь нашим местным командам, мы отправили команды из центра данных LIM, расположенного в Германии, и персонала из центра обработки данных RBX, все из которых были мобилизованы на месте с 16:00. В настоящее время более 50 техников работают в SBG, чтобы вернуть все услуги в Интернете. Мы готовим работу ночью и, если необходимо, завтра утром.

Во избежание катастрофических сценариев, таких как этот, за последние 18 лет OVH разработала электрические архитектуры, которые могут выдерживать всевозможные отключения электроэнергии. Каждый тест, каждый недостаток, каждая новая идея обогатили наш опыт, позволяющий нам сегодня создавать надежные центры обработки данных.

Так почему же этот провал? Почему SBG не выдержала простой сбой питания? Почему весь интеллект, который мы развили в OVH, не смог предотвратить эту катастрофу?

Быстрый ответ: энергосистема SBG унаследовала все недостатки дизайна, которые были результатом небольших амбиций, которые первоначально ожидались для этого местоположения.

Теперь вот длинный ответ:
Еще в 2011 году мы планировали развертывание новых центров обработки данных в Европе. Чтобы проверить аппетит для каждого рынка, с новыми городами и новыми странами, мы изобрели новую технологию развертывания центров обработки данных. С помощью этой внутренней технологии мы надеялись получить гибкость при развертывании центра обработки данных без ограничений времени, связанных с разрешениями на строительство. Первоначально мы хотели получить возможность подтвердить наши гипотезы, прежде чем делать значительные инвестиции в определенном месте.

Таким образом, в начале 2012 года мы запустили дата-центр SBG1 из морских контейнеров. Мы развернули 8 грузовых контейнеров, и SBG1 работает менее чем за 2 месяца. Благодаря этому сверхбыстрому развертыванию, которое заняло менее 6 месяцев, мы смогли подтвердить, что SBG действительно является стратегическим местом для OVH. К концу 2012 года мы решили построить SBG2, а в 2016 году мы начали строительство SBG3. Эти 2 датацентра не были построены из контейнеров, но были основаны на нашей технологии «Башня». Строительство SBG2 заняло 9 месяцев, и SBG3 будет запущен в производство в течение месяца. Чтобы решить проблему пространства, в начале 2013 года мы быстро построили SBG4, основываясь на разговорах о транспортировочных контейнерах.

Проблема заключалась в том, что, развертывая SBG1 с технологией, основанной на транспортных контейнерах, мы не смогли подготовить сайт для крупномасштабного проекта.

Мы допустили две ошибки:
  1. Мы не сделали сайт SBG совместимым с внутренними стандартами, для которых требуется 2 отдельных электропитания 20 кВ, как и все наши места постоянного тока, которые оснащены двумя электрическими каналами. Это крупные инвестиции в размере от 2 до 3 миллионов евро за электрическую подачу, но мы считаем, что это часть нашего внутреннего стандарта.
  2. Мы построили энергосистему SBG2, поместив ее в энергосистему SBG1 вместо того, чтобы сделать их независимыми друг от друга, как и во всех наших центрах обработки данных. В OVH каждый номер центра данных указывает, что силовая сеть не зависит от других датацентров. Где угодно, кроме сайта SBG.

Технология, основанная на транспортных контейнерах, использовалась только для сборки SBG1 и SBG4. На самом деле мы поняли, что контейнерный центр обработки данных не соответствует требованиям нашей торговли. На основе темпов роста SBG минимальный размер сайта должен быть равен нескольким центрам обработки данных и, следовательно, иметь общую емкость 200 000 серверов. Вот почему сегодня для развертывания нового датацентра мы используем только два типа конструкций, которые были широко протестированы и спланированы для крупномасштабных проектов и надежности:
  1. строительство 5-6-этажных башен (RBX4, SBG2-3, BHS1-2) для 40 000 серверов.
  2. приобретение зданий (RBX1-3,5-7, P19, GRA1-2, LIM1, ERI1, WAW1, BHS3-7, VIH1, HIL1) для 40 000 или 80 000 серверов.

Даже если этот утренний инцидент был вызван сторонним автоматом, мы не можем отрицать свою ответственность за провал. У нас есть кое-что, что нужно сделать для SBG, чтобы достичь того же уровня стандартов, что и другие OVH-сайты.

В течение дня мы приняли следующий план действий:
  • установка второго, полностью отдельного электрического питания 20MVA;
  • разделение силовой сети SBG2 от SBG1 / SBG4, а также отделение будущего SBG3 от SBG2 и SBG1 / SBG4;
  • миграция клиентов SBG1 / SBG4 в SBG3;
  • закрытие SBG1 / SBG4 и удаление транспортных контейнеров.

Это инвестиционный план в размере 4-5 миллионов евро, который мы запускаем завтра, и надеемся, что мы сможем восстановить доверие наших клиентов к SBG и OVH.

Наши команды по-прежнему трудно на работе, чтобы восстановить услуги последний из затронутых клиентов. Как только инцидент будет полностью разрешен, мы применим SLA по нашим контрактам.

Мы очень сожалеем об этом инциденте, и мы благодарим доверие, которое вы оказываете нам.

две первые информации

travaux.ovh.net/?do=details&id=28256

Сегодня утром у нас было два отдельных инцидента, которые не имеют никакого отношения друг к другу. Первый инцидент затрагивает наш сайт в Страсбурге (SBG) и второй Roubaix (RBX). На SBG мы имеем 3 центра обработки данных и 1 в стадии строительства. На RBX мы имеем 7 центров обработки данных.

SBG:
На SBG у нас была электрическая проблема. Питание восстановлено, а службы перезапускаются. Некоторые клиенты UP, а другие пока нет.
Если ваш сервис еще не UP, время восстановления составляет от 5 минут до 3-4 часов. Наша система мониторинга позволяет нам узнать, какой клиент по-прежнему влияет, и мы работаем над их устранением.

RBX:
У нас возникла проблема в оптической сети, которая позволяет RBX подключаться к точкам соединения, которые мы имеем в Париже, Франкфурте, Амстердаме, Лондоне, Брюсселе. Источником проблемы является программная ошибка на оптическом оборудовании, которая привела к потере конфигурации и разрешению соединения с нашим сайтом RBX. Мы передали резервную копию конфигурации программного обеспечения, как только мы диагностировали источник проблемы, и DC снова доступен. Инцидент на RBX закрыт. С производителем мы ищем происхождение ошибки программного обеспечения, а также как избежать такого критического инцидента.

Мы находимся в процессе получения данных, чтобы предоставить вам информацию о времени восстановления SBG для всех служб / клиентов. Кроме того, мы дадим все технические подробности о происхождении этих двух инцидентов.

Мы искренне сожалеем. Мы только что испытали 2 одновременных и независимых события, которые повлияли на всех клиентов RBX с 8:15 до 10:37 и всех клиентов SBG с 7:15 до 11:15. Мы продолжаем работать над клиентами, которые еще не UP в SBG.

travaux.ovh.net/vms/index_sbg1.html
travaux.ovh.net/vms/index_sbg2.html
travaux.ovh.net/vms/index_sbg4.html



Авария с электричеством в SBG

twitter.com/olesovhcom/status/928521489426632705




status.ovh.net/?do=details&id=15162

Сначала лег SBG
Через пол часа утянул маршрутизацию RBX за собой

GRA мой любимый — работает
По моей статистике, не раз писал, что считаю что в GRA меньше всего инцидентов происходило за года.
BHS Канада и новые дц тоже работают.