Как мы сохранили прохладу на этот раз

Как уроки, извлеченные из инцидента в нашем центре обработки данных в Нюрнберге в сентябре 2024 года, помогли нам предотвратить подобную ситуацию в октябре.

Что случилось?
9 октября 2024 года наш центр обработки данных в Нюрнберге на короткое время остался без питания от общественной сети. В 18:52 наш источник бесперебойного питания (ИБП) обнаружил отключение питания и взял на себя управление, чтобы обеспечить бесперебойную работу всех серверов и сетевых устройств. Отключение питания также повлияло на нашу систему охлаждения.

После того, как питание вернулось через несколько секунд, не все элементы системы охлаждения автоматически вернулись в режим онлайн. Один из шести насосов системы охлаждения застрял в режиме ошибки. Сработала сигнализация, и техник центра обработки данных поспешил устранить проблему.

Насос требовал ручного сброса. Мы выполнили сброс до того, как повышенная температура повлияла на какие-либо серверы внутри центра обработки данных.




В целом, нам потребовалось менее 60 минут, чтобы расследовать, минимизировать последствия и разрешить инцидент.

Это стало возможным благодаря урокам, извлеченным из сентябрьского инцидента в том же центре обработки данных. Благодаря новым процедурам наша выездная команда смогла быстро определить пострадавшее устройство и вручную перезагрузить охлаждающий насос, не прибегая к внешней поддержке.

Хронология события
  • 18:52: ИБП обнаружил отключение электроэнергии, все серверы остаются в сети
  • 19:24: Внутренние тревоги, вызванные невозможностью перезапустить систему охлаждения после отключения электроэнергии
  • 19:30: Технический специалист центра обработки данных начал расследование
  • 20:14: Технический специалист центра обработки данных определил, что один из насосов охлаждения застрял в режиме сброса. Технический специалист центра обработки данных вручную сбросил насос и вернул его в рабочий режим.
  • 20:15: Инцидент исчерпан, пострадавших клиентов нет
Никакого влияния на миграцию в центральный офис в Европе
Это не меняет нашего обязательства бесплатно перенести все серверы из Нюрнберга в наш центр обработки данных Hub Europe для всех клиентов в Нюрнберге. Миграция идет быстрыми темпами, и уже перенесено более 20 000 серверов.

Выводы
Вы можете задаться вопросом, почему мы беспокоим вас ситуацией, которая в итоге не повлияла ни на один из ваших серверов. Мы считаем важным показать вам, что когда мы говорили, что извлечем урок из сентябрьского сбоя, мы действительно имели это в виду. Мы действовали быстрее, наши процессы были лучше.

Ситуация в октябре могла бы оказать на наших клиентов такое же влияние, как и сентябрьское отключение, но благодаря внесенным нами изменениям ни один клиент не пострадал. Нам еще предстоит пройти долгий путь, но мы продолжим улучшать стабильность нашей инфраструктуры и улучшать опыт наших клиентов.
Выделенные серверы OVH
Выделенные серверы Hetzner

0 комментариев

Оставить комментарий