Миссия выполнима, или как мы проходили сертификацию Tier III Facility в работающем ЦОДе [Часть 2]

Для получения сертификата ЦОДы проверяют не только на устойчивость системы охлаждения, но и на устойчивость энергетической системы.

Как мы справились с этой частью, рассказал наш главный энергетик Олег Царев.

Первый и, наверное, самый важный шаг при прохождении подобных проверок — разработка плана действий каждого сотрудника. А сотрудников, которых мы привлекли к подготовке, было одиннадцать. И это только те, которые трудятся в штате.

Специалисты, которые участвовали в подготовке к сертификации, и их задачи
  • Технический директор осуществлял общую координацию.
  • Директор по эксплуатации координировал действия дежурной смены.
  • Директор по строительству контролировал работу оборудования в ГРЩ.
  • Главный энергетик выполнял переключения.
  • Старший инженер холодоснабжения следил за работой кондиционеров.
  • Специалист по мониторингу следил за его работой.
  • Двое дежурных эксплуатации контролировали работу оборудования в машзалах.
  • Двое дежурных инженеров и дежурный администратор следили за работой оборудования по мониторингу.

Для удобства мы сконфигурировали отдельный дашборд с отображением всех необходимых при прохождении сертификации параметров:
  • Позальная и полная IT-мощность.
  • Мощность каждого ГРЩ и полная мощность работающих кондиционеров.
  • Мощность работающих ДГУ.
  • Температура охлаждающей жидкости в ДГУ.
  • Уровень топлива в ДГУ.
  • Уровень масла в ДГУ.
  • Мощность потребления каждого ЩИБП, ЩР, ЩК.
  • Статус ИБП (процент заряда батарей, оставшееся время работы на батареях, потребляемая мощность ИБП, общая и по каждой фазе).



Кроме наших сотрудников, к подготовке мы привлекли по два человека от каждой подрядной организации, обслуживающей оборудование. Они делали необходимые переключения и находились на «боевом» дежурстве на случай возникновения аварийной ситуации.

Специалисты подрядных организаций
  • Электрики, обслуживающие РУ 10кВ, отключали и включали по команде силовые трансформаторы, имитируя пропажу городского питания или вывод трансформаторов в ремонт.
  • Электрики, обслуживающие низкую сторону, помогали с подключением тепловых пушек.
  • Дизелисты контролировали работу ДГУ и выводили их в ремонт.
  • Специалисты по ИБП следили за работой ИБП и аккумуляторов, осуществляли разборку ИБП.
  • Специалисты по пожарной сигнализации осуществляли вывод системы в ремонт и производили контроль ее работы.
  • Инженеры холодильного оборудования следили за кондиционерами.

Основной сложностью при прохождении сертификации было наличие действующих клиентов. Любая ошибка или авария — и работа клиентских сервисов могла бы встать. Права на ошибку не было.

Tier III подразумевает вывод любой единицы оборудования в ремонт без воздействия на критическую инфраструктуру при номинальной нагрузке. Например, одного из трех ГРЩ, одного из трех ДГУ, какого-нибудь ИБП или щитка, питающего АБК. А так как мы относительно молодой ЦОД, нагрузка еще не успела вырасти до номинальной, и пришлось добирать ее тепловыми пушками. Поэтому, чтобы тест прошел успешно, важно было сделать две вещи:
  • Рассчитать недостающую нагрузку, чтобы компенсировать ее с помощью пушек.
  • Доработать электрические щиты, чтобы была возможность подключить пушки большей мощности.

Вроде все достаточно просто, но и тут есть нюансы.

Во-первых, во время проведения сертификации прерывание мониторинга недопустимо. Поэтому к щитам мониторинга пришлось подводить второе питание.

Во-вторых, найти в необходимом количестве подходящие пушки, которые будут соответствовать проектной мощности стойки, сложно. Поэтому нам пришлось импровизировать и использовать пушки разной мощности. Частью из них, с нами поделились коллеги из Selectel, за что мы им сильно благодарны.

Наши сотрудники устанавливали маломощные пушки прямо в пустые стойки клиентов, предварительно получив их согласие. В большинстве случаев клиенты понимали важность сертификации и шли навстречу, но были и исключения. Тогда нам приходилось размещать пушки в других местах.

В-третьих, для подключения пушек нужны удлинители, с которыми тоже были сложности. Нам не хватило длины проводов, поэтому пришлось экстренно искать кабели, груши и людей, которые все это соберут воедино.


В-четвертых, постоянно менялась схема расстановки пушек, нужно было быстро реагировать и перемещать их.

В-пятых, у тепловых пушек есть своего рода «климат-контроль», который отключал их, когда температура вокруг становилась достаточно высокой. Из-за этого нам пришлось ставить дополнительные пушки, чтобы компенсировать мощность отключившихся.

Переключать питание пушек во время тестов по отключению одного из лучей — отдельный аттракцион, на который ушло много ресурсов. Все потому, что необходимо было сохранить номинальную нагрузку, а мест для подключения становилось меньше.

Очень опасным в плане надежности электроснабжения был тест с поочередным выведением в ремонт ДГУ. У проводящего сертификацию специалиста были считанные минуты на проверку выполнения теста, пока электроснабжение осуществлялось от аккумуляторных батарей.

Кстати, про ДГУ! Во время тестов именно они должны питать ЦОД, а не городская сеть. Поэтому крайне важно было следить за уровнем топлива постоянно. Здесь все достаточно просто: договорился с поставщиком, согласовал график подвоза топлива, заправил. Мы это делали каждую ночь в моменты перерывов между тестами. Так день начинался с полностью заправленными машинами, и можно было не переживать, что во время теста топливо закончится, и питание отключится.


Да, мероприятия подобного рода — серьезная вещь, но место забавным ситуациям все-таки нашлось.
  • Мы разработали план действий на случай аварийного отключения питания. Этот план должен был снизить перегрев оборудования. Суть его была в том, что, услышав команду «Восстанавливаемся» по рации или в чате, сотрудники должны отключить тепловые пушки.
  • Исполнитель отключил ИБП, замерил показатели и доложил о готовности к включению. В ответ получил: «Восстановление подтверждаю».
  • Из-за схожести команд «Восстанавливаемся» и «Восстановление подтверждаю» случилась путаница. Сотрудники начали отключать пушки. Это показали датчики мониторинга — нагрузка в залах упала.
  • Демонстрацию пришлось переделывать, и мы поняли: команды должны звучать максимально по-разному. Поэтому в следующий раз использовали кодовое слово «банан».

На этом история про аудит заканчивается, но работа над улучшениями продолжается. Ведь следующий шаг — получение сертификата Tier III Operations.
Выделенные серверы OVH
Выделенные серверы Hetzner

0 комментариев

Оставить комментарий