Отчёт об аварии, произошедшей 21.06.2021, в нашем Центре Обработки Данных “Матисов”.

Временные промежутки указаны по Московскому времени.

В условиях жаркого дня, практически одновременно в ЦОД вышли из строя два кондиционера, что повлекло повышение температуры в серверном помещении на несколько градусов. Проблема была зафиксирована нашими специалистами, и в течение двух часов до начала аварии, были предприняты попытки восстановления работы холодильного оборудования. Тем временем температура поднималась, т.к. оставшиеся кондиционеры уже не справлялись с выделяемым теплом, и превысила 50 градусов. По цепочке произошло отключение еще трех кондиционеров.

Первые вышедшие из строя кондиционеры находились в секторе размещения сетевого оборудования, в том числе, коммутатора ядра ЦОД. Произошел перегрев данного сетевого оборудования, сработала защита, и оно выключилось из работы. Это произошло около 15:00.

Наша команда не оставляла попыток запустить кондиционеры и снизить температуру в серверном помещении, и в помощь был вызван специалист по холодильному оборудованию. А, чтобы избежать дальнейшего повышения температуры, которое могло стать причиной выхода из строя серверов, было решено выключить часть стоек, безопасно выключив серверы.
К этому времени температура поднялась настолько, что некоторые источники бесперебойного питания, которые находятся в нижних юнитах стоек, стали отказывать и самостоятельно выключаться.

Примерно к 20:15 удалось восстановить работу кондиционеров и снизить температуру до стабильной работы сетевого core-оборудования. После чего наши дежурные специалисты приступили к запуску и восстановлению работы клиентского оборудования.

Наша компания очень сожалеет о случившемся и искренне приносит извинения за сложившуюся ситуацию и за доставленные неудобства.

0 комментариев

Оставить комментарий