Отчёт об аварии, произошедшей 21.06.2021, в нашем Центре Обработки Данных “Матисов”.
Временные промежутки указаны по Московскому времени.
В условиях жаркого дня, практически одновременно в ЦОД вышли из строя два кондиционера, что повлекло повышение температуры в серверном помещении на несколько градусов. Проблема была зафиксирована нашими специалистами, и в течение двух часов до начала аварии, были предприняты попытки восстановления работы холодильного оборудования. Тем временем температура поднималась, т.к. оставшиеся кондиционеры уже не справлялись с выделяемым теплом, и превысила 50 градусов. По цепочке произошло отключение еще трех кондиционеров.
Первые вышедшие из строя кондиционеры находились в секторе размещения сетевого оборудования, в том числе, коммутатора ядра ЦОД. Произошел перегрев данного сетевого оборудования, сработала защита, и оно выключилось из работы. Это произошло около 15:00.
Наша команда не оставляла попыток запустить кондиционеры и снизить температуру в серверном помещении, и в помощь был вызван специалист по холодильному оборудованию. А, чтобы избежать дальнейшего повышения температуры, которое могло стать причиной выхода из строя серверов, было решено выключить часть стоек, безопасно выключив серверы.
К этому времени температура поднялась настолько, что некоторые источники бесперебойного питания, которые находятся в нижних юнитах стоек, стали отказывать и самостоятельно выключаться.
Примерно к 20:15 удалось восстановить работу кондиционеров и снизить температуру до стабильной работы сетевого core-оборудования. После чего наши дежурные специалисты приступили к запуску и восстановлению работы клиентского оборудования.
Наша компания очень сожалеет о случившемся и искренне приносит извинения за сложившуюся ситуацию и за доставленные неудобства.
В условиях жаркого дня, практически одновременно в ЦОД вышли из строя два кондиционера, что повлекло повышение температуры в серверном помещении на несколько градусов. Проблема была зафиксирована нашими специалистами, и в течение двух часов до начала аварии, были предприняты попытки восстановления работы холодильного оборудования. Тем временем температура поднималась, т.к. оставшиеся кондиционеры уже не справлялись с выделяемым теплом, и превысила 50 градусов. По цепочке произошло отключение еще трех кондиционеров.
Первые вышедшие из строя кондиционеры находились в секторе размещения сетевого оборудования, в том числе, коммутатора ядра ЦОД. Произошел перегрев данного сетевого оборудования, сработала защита, и оно выключилось из работы. Это произошло около 15:00.
Наша команда не оставляла попыток запустить кондиционеры и снизить температуру в серверном помещении, и в помощь был вызван специалист по холодильному оборудованию. А, чтобы избежать дальнейшего повышения температуры, которое могло стать причиной выхода из строя серверов, было решено выключить часть стоек, безопасно выключив серверы.
К этому времени температура поднялась настолько, что некоторые источники бесперебойного питания, которые находятся в нижних юнитах стоек, стали отказывать и самостоятельно выключаться.
Примерно к 20:15 удалось восстановить работу кондиционеров и снизить температуру до стабильной работы сетевого core-оборудования. После чего наши дежурные специалисты приступили к запуску и восстановлению работы клиентского оборудования.
Наша компания очень сожалеет о случившемся и искренне приносит извинения за сложившуюся ситуацию и за доставленные неудобства.