Полное вскрытие, включая хронологию инцидента, шаги, предпринятые нами для его разрешения, а также меры по улучшению нашей реакции в будущем.
Что именно произошло?
2 сентября 2024 года все VPS, выделенные серверы и экземпляры объектного хранилища в Нюрнбергском дата-центре стали недоступны. Панель управления клиентов, связь со службой поддержки по электронной почте и телефону, а также размещение новых заказов не функционировали.
Почему экземпляры клиентов и системы Contabo стали недоступны?
Экземпляры клиентов и системы Contabo (такие как панель управления клиентов и каналы поддержки) стали недоступны, поскольку они были отключены, чтобы избежать превышения температуры внутри центра обработки данных 40°C (104°F), что является максимальной температурой для работы наших серверов и сетевых устройств. Это также делается для предотвращения повреждения HDD, SSD и NVMe-хранилищ, что может привести к потере данных.
Почему температура внутри центра обработки данных в Нюрнберге повысилась?
Температура внутри дата-центра в Нюрнберге росла, так как система кондиционирования воздуха не охлаждала воздух внутри дата-центра. Серверы выделяют тепло во время работы, и без работы кондиционера температура поднялась выше безопасного предела. Высокие наружные температуры еще больше усугубили ситуацию.
Почему система охлаждения не работала?
Система охлаждения перестала охлаждать воздух, так как она автоматически отключилась и больше не включилась.
Почему система охлаждения автоматически отключилась?
Система охлаждения была автоматически отключена, поскольку дата-центр в Нюрнберге перешел на источник бесперебойного питания (ИБП) в качестве аварийного источника питания. Это стандартный процесс отключения системы охлаждения, когда питание дата-центра обеспечивается ИБП, и ее повторного включения через несколько секунд после того, как дизель-генератор возьмет на себя управление или восстановится электроснабжение от общественной сети.
Почему Нюрнбергский центр обработки данных перешел на ИБП в качестве аварийного источника питания?
В местной электросети произошел перепад напряжения. Это заставило наши системы переключиться на ИБП для обеспечения бесперебойной подачи питания и временно отключить систему охлаждения. ИБП был активирован и обеспечивал питание в течение 3 секунд, когда основной источник питания снова взял на себя управление.
Почему наблюдались колебания напряжения в местной электросети?
Колебания напряжения в местной электросети были вызваны сильной грозой с ударами молний по всей Франконии, особенно в районе Нюрнберга.
Наш центр обработки данных оборудован громоотводами для защиты нашего центра обработки данных от воздействия прямого удара молнии. Очевидно, что громоотводы не способны смягчить воздействие ударов молнии, которые поражают другие сооружения, такие как линии электропередач, иногда расположенные в нескольких километрах от нашего здания.
Почему система охлаждения не включилась автоматически?
Система охлаждения не включилась автоматически из-за неисправности в шине управления. Кроме того, наши попытки вручную перезапустить системы охлаждения не увенчались успехом. Охлаждение было восстановлено только после жесткой перезагрузки, выполненной уполномоченным техником из компании, которая предоставила охлаждающие устройства.
Точная хронология события
Ниже приводится хронология инцидента (по центральноевропейскому летнему времени), в которой подробно описаны наши ответные действия и основные действия, предпринятые для восстановления услуг:
2 сентября 2024 г., 07:14: обнаружены перепады напряжения, питание автоматически переключилось на ИБП. Серверы продолжают работать, системы охлаждения отключаются.
2 сентября 2024 г., 07:14: питание от сети восстанавливается через 3 секунды, система охлаждения не перезапускается.
2 сентября 2024 г., 07:14: оповещение мониторинга о переключении на ИБП и отключении охладителей отправлено персоналу центра обработки данных. Процесс обработки инцидента начался. Температура начинает расти.
2 сентября 2024 г., 07:33: оповещение мониторинга о том, что первая серверная комната достигла критической температуры, сотрудники оценивают ситуацию.
2 сентября 2024 г., 08:13: первые системы Contabo отключаются.
2 сентября 2024 г., 08:41: команда на месте оценила, что они не могут вручную включить системы охлаждения. Вскоре после этого вызывается техник из компании, занимающейся системами охлаждения. Технический специалист недоступен немедленно, поскольку уже отправлен в другие предприятия в районе, затронутом аналогичной проблемой.
2 сентября 2024 г., 11:30–12:08: Температура превышает безопасный порог в одной серверной комнате за другой, серверы отключаются, чтобы предотвратить повреждение и потерю данных.
2 сентября 2024 г., 12:55: Дождь прекращается, позволяя открыть заслонки защиты от дыма для вентиляции. Промышленные вентиляторы активируются для более быстрого перемещения горячего воздуха. Температура начинает понижаться.
2 сентября 2024 г., 13:55: Основные сетевые соединения и компоненты восстанавливаются.
2 сентября 2024 г., 14:25: Система охлаждения перезапускается после визита стороннего технического специалиста.
2 сентября 2024 г., 15:05: Серверы постепенно возвращаются в строй по мере снижения температуры.
2 сентября 2024 г., 15:30: Кластер объектного хранилища снова в строю.
2 сентября 2024 г., 15:42: Системы Contabo, включая панель управления клиента, полностью восстановлены.
2 сентября 2024 г., 18:00: 95% серверов снова в сети.
3 сентября 2024 г. 19:55: Инцидент решен. Отдельные сообщения о проблемах с виртуальными и выделенными серверами обрабатываются службой технической поддержки в обычном режиме.
А как насчет избыточности?
Все критические системы в центре обработки данных в Нюрнберге были спроектированы с избыточностью N+1. Это означает, что, например, если центру обработки данных требуется 2 охлаждающих устройства для кондиционирования воздуха (N=2), вместо них устанавливалось 3 устройства (N+1 = 2+1 = 3). Тот же принцип применим к другим критическим системам, таким как электропитание или подключение к интернету. Вышеупомянутое переключение на питание от ИБП было примером избыточности электропитания в действии. К сожалению, имеющиеся избыточности не смогли предотвратить отключение, описанное выше.
Что насчет резервных систем Contabo (таких как Панель управления клиента или каналы поддержки)?
У нас есть процесс обеспечения непрерывности бизнеса для систем Contabo (например, Панель управления клиентами или каналы поддержки), и он был активирован, как и планировалось, но до того, как мы перешли на альтернативные местоположения, системы в Нюрнберге были восстановлены.
Уроки и исправление
- Во-первых, мы решили перевести всех клиентов из Нюрнберга в наш недавно построенный центр обработки данных Hub Europe. Этот объект предназначен для достижения доступности 99,982%, необходимой для центров обработки данных Tier 3, обеспечивает более надежную защиту от инцидентов, подобных описанному выше. Процесс уже начался, и с затронутыми клиентами связываются напрямую.
- Во-вторых, мы пересмотрим наши планы аварийного восстановления и процедуры отката для систем Contabo, таких как Панель управления клиентов и каналы поддержки, чтобы обеспечить их более высокую доступность даже в случае возникновения инцидентов.
- В-третьих, мы пересматриваем наш процесс реагирования на инциденты, чтобы быстрее разрешать инциденты и лучше информировать клиентов во время инцидентов. Мы осознаем, что наши партнеры полагаются на нас, и мы активно работаем над воплощением немецкого качества, которое лежит в основе нашей работы.
Мы еще раз благодарим наших клиентов за их терпение и понимание во время этого события, и мы заверяем их, что мы стремимся предотвратить подобные проблемы в будущем. Мы будем более открыто сообщать обо всех действиях, которые мы предпринимаем для обеспечения бесперебойной работы ваших серверов во всех наших центрах обработки данных по всему миру.