- 1) Перенос оборудование в новую стойку, поскольку старую ЦОД ММТС-9 решил у нас забрать под собственные нужды, чем уже осложнил жизнь нашей компании
- 2) По факту переноса: вывоз лишних серверов по другим стойкам, модернизация ряда оборудования, которому это уже требовалось провести планово, для дальнейшей стабильной работы
- 3) Переключение сети всех остальных стоек в ММТС-9 от ядра сети в новой стойки, отключение от старого более не существующего ядра
1-й и 2-й этапы прошли штатно, а вот перед третьим, было подано питание в стойку, в результате чего, из-за перегруза выбило автоматы (поскольку они были всего рассчитаны на 16А, а должны были быть мощнее), первоначально вылетел АВР от нагрузки и сразу же пытался перезапуститься, из-за чего вся масса и моментный ток превысили порог, произошёл щелчок автомата и остаточный ток вышел по ряду розеток в блоки питания серверов, из-за чего множество блоков питания были выведены из строя, а также в некоторых случаях, ряд других комплектующих.
Также были добавлены ИБП на новую стойку, в целях дополнительного резервирования, они оказались разряженными и начали заряжаться в момент подачи питания.
Работы начались 7 марта ночью, планировались завершиться уже 7 марта до 05:00 МСК, но в связи с произошедшей ситуацией, основная масса серверов лишь была введена в строй к 08:00 МСК утра, в том числе из-за нерабочих кроссировок
Нерабочие кроссировки — история отдельная, до каждой нашей другой стойки заказываются протяжки от основной, чтобы соединить их по локальной сети с сердцем сети — основным маршрутизатором. Как выяснилось при подключении, 2 кроссировки из всех АО «ММТС-9» предоставил нам нерабочие, в связи с чем ряд стоек мы смогли завести в работу лишь к 12:00 МСК.
Что касается остальных серверов — они нуждались в обслуживании: блоки питания, материнские платы, сетевые карты, основная загвоздка оказалась в блоках питания: резервов не хватило, а докупить новые нужной модели оперативно не получилось, также на некоторых серверах пришла в непригодность файловая система и на всё это потребовалось время. Инженеры работали круглосуточно, спали буквально в ДЦ, в связи с чем КПД спустя второй день начал падать.
Как итог: руководство нашей компании посчитало, что в возникшей ситуации виновна халатность наших инженеров и их «коллег по цеху» из ММТС-9. К виновным инженерам приняты штрафные санкции, а на будущее закуплены резервы и сформирован четкий план аварийно-восстановительных работ любого типа.
Мы приносим еще раз свои глубочайшие извинения за данную ситуацию.
Более подробный разбор ситуации ждите на Habr до конца квартала!
Ко всем серверам, которые были запущены до 9 утра МСК — добавлена неделя аренды
К серверам, запущенным позже — от 1-го месяца до 1-го года аренды
Также вчерашний день наблюдались трудности в
работе панели управления VMManager6 из-за «некорректно отработавшего модуля», цитата главы технической поддержки ISPSystem. Совместными усилиями причина была устранена. Дополнительные подробности мы ожидаем от их команды и обязательно ими поделимся.
telegra.ph/Raboty-v-Moskve-i-neudachi-s-VMManager6-03-25