Рейтинг
0.00

Дата-центры OVH

34 читателя, 1208 топиков

Теперь вот длинный ответ

travaux.ovh.net/?do=details&id=28247

Сегодня утром в 7:23 утра у нас был большой перерыв на нашем сайте в Страсбурге (SBG): перерыв в электроснабжении, который оставил три датацентра без электроэнергии в течение 3,5 часов. SBG1, SBG2 и SBG4. Вероятно, это самый худший сценарий, который мог произойти с нами.

Участок SBG питается от линии электропередачи 20 кВА, состоящей из 2 кабелей, каждая из которых обеспечивает 10MVA. 2 кабеля работают вместе и подключены к одному и тому же источнику и к тому же автоматическому выключателю в ELD (Strasbourg Electricity Networks). Сегодня утром один из двух кабелей был поврежден, и автоматический выключатель отключил питание от центра обработки данных.

Сайт SBG предназначен для работы без ограничений по времени на генераторах. Для SBG1 и SBG4 мы создали первую резервную систему из 2 генераторов по 2MVA каждый, сконфигурированных в N + 1 и 20kv. Для SBG2 мы создали 3 группы в конфигурации N + 1 1,4 МВА каждый. В случае сбоя внешнего источника питания высоковольтные ячейки автоматически перенастраиваются с помощью моторной отказоустойчивой системы. Менее чем за 30 секунд дата-центры SBG1, SBG2 и SBG4 могут восстановить мощность с 20 кВА. Чтобы сделать это переключение без отключения питания серверов, у нас есть источники бесперебойного питания (ИБП), которые могут поддерживать питание до 8 минут.

Сегодня утром моторная отказоустойчивая система работала не так, как ожидалось. Команда запуска генераторов резервного копирования не была предоставлена ​​NSM. Это NSM (двигатель с нормальной аварийной ситуацией), предоставляемый поставщиком высоковольтных ячеек 20 кВ. Мы контактируем с производителем / супером, чтобы понять происхождение этой проблемы. Тем не менее, это дефект, который должен был быть обнаружен во время периодических испытаний на неисправность внешнего источника. Последний тест SBG для восстановления резервных копий был в конце мая 2017 года. Во время этого последнего теста мы приводили SBG только из генераторов в течение 8 часов без каких-либо проблем, и каждый месяц мы тестируем генераторы резервных копий бесплатно. И, несмотря на все это, этой системы было недостаточно, чтобы избежать сегодняшнего юрта.

Примерно в 10 часов нам удалось переключить ячейки вручную и снова начать работу центра обработки данных с генераторами. Мы попросили ELD отсоединить неисправный кабель от высоковольтных ячеек и снова включить автоматический выключатель только с одним из двух кабелей и, следовательно, были ограничены 10MVA. Это действие было выполнено ELD, и мощность была восстановлена ​​примерно в 10:30. Маршрутизаторы SBG были подключены к сети с 10:58 утра.

С тех пор мы работаем над перезагрузкой сервисов. Включение источника энергии с помощью энергии позволяет перезапускать серверы, но службы, запущенные на серверах, все равно необходимо перезапустить. Вот почему каждый сервис постепенно возвращается с 10:30. Наша система мониторинга позволяет нам узнать список успешно запущенных серверов и те, которые все еще имеют проблему. Мы вмешиваемся на каждом из этих серверов, чтобы выявить и решить проблему, которая препятствует ее перезапуску.

В 7:50 мы создали кризисную единицу в RBX, где мы централизовали информацию и действия всех вовлеченных команд. Грузовик из RBX был загружен запасными частями для SBG. Он прибыл в пункт назначения около 17:30. Чтобы помочь нашим местным командам, мы отправили команды из центра данных LIM, расположенного в Германии, и персонала из центра обработки данных RBX, все из которых были мобилизованы на месте с 16:00. В настоящее время более 50 техников работают в SBG, чтобы вернуть все услуги в Интернете. Мы готовим работу ночью и, если необходимо, завтра утром.

Во избежание катастрофических сценариев, таких как этот, за последние 18 лет OVH разработала электрические архитектуры, которые могут выдерживать всевозможные отключения электроэнергии. Каждый тест, каждый недостаток, каждая новая идея обогатили наш опыт, позволяющий нам сегодня создавать надежные центры обработки данных.

Так почему же этот провал? Почему SBG не выдержала простой сбой питания? Почему весь интеллект, который мы развили в OVH, не смог предотвратить эту катастрофу?

Быстрый ответ: энергосистема SBG унаследовала все недостатки дизайна, которые были результатом небольших амбиций, которые первоначально ожидались для этого местоположения.

Теперь вот длинный ответ:
Еще в 2011 году мы планировали развертывание новых центров обработки данных в Европе. Чтобы проверить аппетит для каждого рынка, с новыми городами и новыми странами, мы изобрели новую технологию развертывания центров обработки данных. С помощью этой внутренней технологии мы надеялись получить гибкость при развертывании центра обработки данных без ограничений времени, связанных с разрешениями на строительство. Первоначально мы хотели получить возможность подтвердить наши гипотезы, прежде чем делать значительные инвестиции в определенном месте.

Таким образом, в начале 2012 года мы запустили дата-центр SBG1 из морских контейнеров. Мы развернули 8 грузовых контейнеров, и SBG1 работает менее чем за 2 месяца. Благодаря этому сверхбыстрому развертыванию, которое заняло менее 6 месяцев, мы смогли подтвердить, что SBG действительно является стратегическим местом для OVH. К концу 2012 года мы решили построить SBG2, а в 2016 году мы начали строительство SBG3. Эти 2 датацентра не были построены из контейнеров, но были основаны на нашей технологии «Башня». Строительство SBG2 заняло 9 месяцев, и SBG3 будет запущен в производство в течение месяца. Чтобы решить проблему пространства, в начале 2013 года мы быстро построили SBG4, основываясь на разговорах о транспортировочных контейнерах.

Проблема заключалась в том, что, развертывая SBG1 с технологией, основанной на транспортных контейнерах, мы не смогли подготовить сайт для крупномасштабного проекта.

Мы допустили две ошибки:
  1. Мы не сделали сайт SBG совместимым с внутренними стандартами, для которых требуется 2 отдельных электропитания 20 кВ, как и все наши места постоянного тока, которые оснащены двумя электрическими каналами. Это крупные инвестиции в размере от 2 до 3 миллионов евро за электрическую подачу, но мы считаем, что это часть нашего внутреннего стандарта.
  2. Мы построили энергосистему SBG2, поместив ее в энергосистему SBG1 вместо того, чтобы сделать их независимыми друг от друга, как и во всех наших центрах обработки данных. В OVH каждый номер центра данных указывает, что силовая сеть не зависит от других датацентров. Где угодно, кроме сайта SBG.

Технология, основанная на транспортных контейнерах, использовалась только для сборки SBG1 и SBG4. На самом деле мы поняли, что контейнерный центр обработки данных не соответствует требованиям нашей торговли. На основе темпов роста SBG минимальный размер сайта должен быть равен нескольким центрам обработки данных и, следовательно, иметь общую емкость 200 000 серверов. Вот почему сегодня для развертывания нового датацентра мы используем только два типа конструкций, которые были широко протестированы и спланированы для крупномасштабных проектов и надежности:
  1. строительство 5-6-этажных башен (RBX4, SBG2-3, BHS1-2) для 40 000 серверов.
  2. приобретение зданий (RBX1-3,5-7, P19, GRA1-2, LIM1, ERI1, WAW1, BHS3-7, VIH1, HIL1) для 40 000 или 80 000 серверов.

Даже если этот утренний инцидент был вызван сторонним автоматом, мы не можем отрицать свою ответственность за провал. У нас есть кое-что, что нужно сделать для SBG, чтобы достичь того же уровня стандартов, что и другие OVH-сайты.

В течение дня мы приняли следующий план действий:
  • установка второго, полностью отдельного электрического питания 20MVA;
  • разделение силовой сети SBG2 от SBG1 / SBG4, а также отделение будущего SBG3 от SBG2 и SBG1 / SBG4;
  • миграция клиентов SBG1 / SBG4 в SBG3;
  • закрытие SBG1 / SBG4 и удаление транспортных контейнеров.

Это инвестиционный план в размере 4-5 миллионов евро, который мы запускаем завтра, и надеемся, что мы сможем восстановить доверие наших клиентов к SBG и OVH.

Наши команды по-прежнему трудно на работе, чтобы восстановить услуги последний из затронутых клиентов. Как только инцидент будет полностью разрешен, мы применим SLA по нашим контрактам.

Мы очень сожалеем об этом инциденте, и мы благодарим доверие, которое вы оказываете нам.

Incident Roubaix

travaux.ovh.net/?do=details&id=28244

Сегодня утром у нас был инцидент в оптической сети, которая соединяет наш сайт Roubaix (RBX) с 6 из 33 пунктов присутствия (POP) нашей сети: Paris (TH2 и GSW), Франкфурт (FRA), Амстердам (AMS ), Лондон (LDN), Брюссель (BRU).

Сайт RBX подключается через 6 оптических волокон к этим 6 СОЗ: 2x RBX <> BRU, 2x RBX <> LDN, 2x RBX <> Paris (1x RBX <> TH2 и 1x RBX <> GSW). Эти 6 оптических волокон соединены с системами оптических узлов, которые позволяют иметь 80 длин волн 100 Гбит / с на каждом оптическом волокне.

Для каждого 100G, подключенного к маршрутизаторам, мы используем 2 оптических пути, которые географически различны. В случае обрезки оптического волокна, знаменитый «удар назад», система переконфигурируется в 50 мс, и все ссылки остаются в UP. Чтобы подключить RBX к POP, мы имеем емкость 4,4 Тбит / с, 44x100G: 12x100G до Парижа, 8x100G до Лондона, 2x100G до Брюсселя, 8x100G до Амстердама, 10x100G до Франкфурта, 2x100G до DC GRA и 2x100G до DC SBG.

В 8:01 все 100G-ссылки, 44x100G, были потеряны. Учитывая систему резервирования, которую мы создали, корень проблемы не может быть физическим отключением 6 оптических волокон одновременно. Мы не смогли выполнить диагностику удаленного шасси, поскольку интерфейсы управления были исправлены. Нам пришлось вмешаться непосредственно в комнаты маршрутизации, чтобы манипулировать шасси: отсоедините кабели между корпусом и перезапустите систему и, наконец, выполните диагностику с производителем оборудования. Попытки перезагрузить систему потребовали много времени, потому что для каждого шасси требуется от 10 до 12 минут для загрузки. Это основная причина продолжительности инцидента.

Диагностика: все используемые нами карты транспондеров, ncs2k-400g-lk9, ncs2k-200g-cklc, находятся в состоянии ожидания. Одним из возможных источников такого состояния является потеря конфигурации. Таким образом, мы восстановили резервную копию и вернули конфигурацию, которая позволила системе перенастроить все карточки транспондеров. 100G в маршрутизаторах вернулись естественным образом, и связь RBX с 6 POP была восстановлена ​​в 10:34.

Это явно ошибка программного обеспечения на оптическом оборудовании. База данных с конфигурацией сохраняется 3 раза и копируется в 2 контрольные карты. Несмотря на всю эту безопасность, база исчезла. Мы будем работать с OEM, чтобы найти источник проблемы и помочь исправить ошибку. Мы не ставим под сомнение доверие у производителя оборудования, даже если этот тип ошибок особенно важен. Время безотказной работы — это вопрос дизайна, который учитывает все случаи, в том числе когда ничего не работает. Режим параноида в Ovh должен быть продвинут еще во всех наших проектах.

Ошибки могут существовать, инциденты, которые влияют на наших клиентов, нет. В Ovh обязательно есть ошибка, поскольку, несмотря на все инвестиции в сеть, волокна, технологии, у нас просто есть 2 часа простоя всей нашей инфраструктуры в Рубе.

Одним из решений является создание двух систем оптических узлов вместо одного. 2, что означает 2 базы данных, и поэтому в случае потери конфигурации только одна система не работает. Если 50% ссылок проходит через одну из систем, сегодня мы потеряли бы 50% емкости, но не 100% ссылок. Это один из проектов, которые мы начали 1 месяц назад, было заказано шасси, и мы получим их в ближайшие дни. Мы можем начать работу по настройке и миграции за 2 недели. Учитывая сегодняшний инцидент, этот проект становится приоритетом для всех наших инфраструктур, всех DC, всех СОЗ.

В сфере предоставления облачных инфраструктур остаются только те, которые являются параноидальными. Качество обслуживания является следствием 2-х элементов. Все ожидаемые инциденты «по дизайну». И инциденты, которые мы узнали из наших ошибок. Этот инцидент приводит нас к тому, чтобы поднять планку еще выше, чтобы приблизиться к нулевому риску.

Мы искренне сожалеем о пропуске 2H33 минут на сайте RBX. В ближайшие дни, пострадавшие клиенты получат электронное письмо, чтобы инициировать обязательства SLA.

две первые информации

travaux.ovh.net/?do=details&id=28256

Сегодня утром у нас было два отдельных инцидента, которые не имеют никакого отношения друг к другу. Первый инцидент затрагивает наш сайт в Страсбурге (SBG) и второй Roubaix (RBX). На SBG мы имеем 3 центра обработки данных и 1 в стадии строительства. На RBX мы имеем 7 центров обработки данных.

SBG:
На SBG у нас была электрическая проблема. Питание восстановлено, а службы перезапускаются. Некоторые клиенты UP, а другие пока нет.
Если ваш сервис еще не UP, время восстановления составляет от 5 минут до 3-4 часов. Наша система мониторинга позволяет нам узнать, какой клиент по-прежнему влияет, и мы работаем над их устранением.

RBX:
У нас возникла проблема в оптической сети, которая позволяет RBX подключаться к точкам соединения, которые мы имеем в Париже, Франкфурте, Амстердаме, Лондоне, Брюсселе. Источником проблемы является программная ошибка на оптическом оборудовании, которая привела к потере конфигурации и разрешению соединения с нашим сайтом RBX. Мы передали резервную копию конфигурации программного обеспечения, как только мы диагностировали источник проблемы, и DC снова доступен. Инцидент на RBX закрыт. С производителем мы ищем происхождение ошибки программного обеспечения, а также как избежать такого критического инцидента.

Мы находимся в процессе получения данных, чтобы предоставить вам информацию о времени восстановления SBG для всех служб / клиентов. Кроме того, мы дадим все технические подробности о происхождении этих двух инцидентов.

Мы искренне сожалеем. Мы только что испытали 2 одновременных и независимых события, которые повлияли на всех клиентов RBX с 8:15 до 10:37 и всех клиентов SBG с 7:15 до 11:15. Мы продолжаем работать над клиентами, которые еще не UP в SBG.

travaux.ovh.net/vms/index_sbg1.html
travaux.ovh.net/vms/index_sbg2.html
travaux.ovh.net/vms/index_sbg4.html



Авария с электричеством в SBG

twitter.com/olesovhcom/status/928521489426632705




status.ovh.net/?do=details&id=15162

Сначала лег SBG
Через пол часа утянул маршрутизацию RBX за собой

GRA мой любимый — работает
По моей статистике, не раз писал, что считаю что в GRA меньше всего инцидентов происходило за года.
BHS Канада и новые дц тоже работают.