Остаться в живых: чеклист для подготовки ЦОДа к лету
Лето, которое нас не убивает, делает нас сильнее. Старая цодовская пословица
Summertime and the living is easy… Извините, отвлекся. Лето в загруженном дата-центре – это, конечно, не про easy living ни разу, и всем, кто хочет без потерь дожить до сентября, уже давно пора начинать подготовку.
Готовиться имеет смысл, даже если прошлое лето прошло без сбоев, и так же важно понимать, что безупречно работающие кондиционеры здесь обязательное, но недостаточное условие. Ну, да обо всем по порядку.
1. Вспомнить всё
Конечно, вы уже проделали это упражнение где-нибудь в октябре, но не пожалейте времени и постарайтесь еще раз припомнить все волнительные случаи прошлого лета: какие возникали проблемы, все ли они были устранены, есть ли у вас понимание, как действовать в аналогичных ситуациях сегодня, и не нуждаются ли осенние выводы в уточнении. Как говорится, зачем наступать на старые грабли, если можно освободить место для новых? J
2. Reality check
Разобравшись с прошлыми проблемами, переходим к текущему состоянию дел. Достаточно ли у вас холода? Чтобы ответить на этот вопрос, откупориваем статистику энергопотребления серверного и сетевого железа (в разное время суток) и сопоставляем полученные цифры с проектной мощностью по холодоснабжению. Если текущая нагрузка больше проектной – можно начинать бояться. Вариантов тут, строго говоря, два: снизить нагрузку или усилить систему холодоснабжения, вплоть до модернизации оборудования (установки более мощных кондиционеров \ чиллеров). Еще можно оставить все как есть и сыграть в русскую рулетку, но это, так скажем, вариант на любителя.
Если на уровне общих цифр все в пределах, смотрим энергопотребление отдельных стоек во избежание локального перегрева. Стойки, потребляющие вдвое больше среднего, также необходимо либо разгрузить, либо обеспечить дополнительным охлаждением.
3. Песнь льда и пламени
Внимание, кэп на проводах: горячие и холодные коридоры имеют смысл тогда и только тогда, когда воздух между ними не смешивается. Повторяю, не смешивается. Как слышно? Не смешивается. Вообще.
Почему я рассказываю вам очевидные вещи? Потому что постоянно сталкиваюсь с тем, что эта, казалось бы, азбука попросту игнорируется.
Теперь идем в машинный зал и проверяем:
- Все активное оборудование, до последнего сервера, должно забирать воздух из холодного коридора и выдувать его в горячий. С особым тщанием я бы рекомендовал проверять сетевое оборудование.
- 1 юнит ≤ 1 «железка». Даже если оборудование компактное, места в юните еще много, а вы очень, очень рачительный хозяин.
- Ничто не должно препятствовать выходу горячего воздуха из оборудования в (горячий же) коридор: никаких блоков розеток и АВР, не говоря уже об инструментах, место которым на складе, а не в стойке.
- Все свободные юниты должны быть закрыты заглушками. И еще разок: ВСЕ. Тема с заглушками может показаться какой-то третьестепенной мелочью, но все оборудование вокруг такого мини-портала в горячий коридор будет систематически перегреваться. Оно вам надо?
- Стойки должны стоять вплотную друг к другу, без «пробелов». По той же самой причине, по которой свободные юниты должны быть закрыты. И, понятно, если отдельные ряды стоек у вас «разбавлены» колоннами, убедитесь, что все пространство между колоннами и ближайшими к ним стойками также закрыто.
4. Чистота – залог прохлады
С машинным залом разобрались – идем смотреть внешние блоки кондиционеров \ чиллеры:
Прежде всего, проверяем, не изменился ли окружающий ландшафт: новые стены, постройки и т.д. – все это может заметно повлиять (в плохом смысле слова) на воздухообмен рядом с внешними блоками \ чиллерами, поэтому важно вовремя отслеживать подобные изменения и принимать необходимые меры.
Заодно стоит удостовериться, что у вас есть круглосуточный безопасный доступ к вашему внешнему оборудованию (это must), а сама площадка хорошо освещена, оснащена электрическими розетками и водопроводом (это если вы не хотите тянуть провода и шланги на дачный манер через коридоры-окна-двери).
Переходим к собственно оборудованию. Если в теплообменниках за зиму скопилась грязь (как оно обычно и бывает), берем квалифицированных спецов по кондиционерам – и вот да, моем. Почему квалифицированные спецы, а не гастарбайтеры? Потому что неподготовленные гости столицы могут, к примеру, погнуть ламели.
На период тополиного пуха планируем ежедневный мониторинг состояния внешних блоков и готовимся дополнительно промывать ламели по мере необходимости.
5. Кручу-верчу проверить хочу
Если у вас есть резерв по кондиционерам (а он у вас должен быть), самое время убедиться, что резерв этот в рабочем состоянии:
Если резервные кондиционеры обычно выключены – включаете их вместо основных и проверяете, справляются ли они с текущей нагрузкой; ротацию оборудования вообще полезно проводить на постоянной основе, а не только в рамках «боевых учений».
Если у вас постоянно работают все кондиционеры, включая резервные, – последовательно выключаете каждый «лишний» и смотрите, как чувствуют себя оставшиеся.
6. ТО & подрядчик
Крайне желательно провести ТО холодильного оборудования до первых жарких дней (в этом смысле нынешний апрель всем в помощь). Также полезно заранее проверить срок действия текущего договора на обслуживание, чтобы не обнаружить себя посреди июня без подрядчика.
И позвоните вашему подрядчику: запросите внеплановый выезд, убедитесь, что сильная команда не разбежалась за зиму и в целом готова оперативно отрабатывать запросы.
7. На сервис надейся, а сам не плошай
Даже если ваш подрядчик по-прежнему молодцом, проверьте тот минимальный набор запчастей и инструментов, который должен быть у вас под рукой на случай срочного ремонта:
- Расходные материалы «на каждый день»: фреон, масло, автоматы, предохранители, вот это все.
- Запчасти, доставка которых может затянуться на несколько недель:
- Внешние и внутренние вентиляторы
- Компрессоры для чиллеров \ кондиционеров
- Контроллер
- Датчики давления и температуры.
Проверьте, есть ли у вас актуальные схемы расположения внешних блоков и читаемая маркировка на самих внешних блоках, – иными словами, убедитесь, что вы четко представляете себе, какой внешний блок относится к какому кондиционеру, и любой ваш инженер сможет в этом разобраться за минуту.
Попутно стоит проверить:
- промаркированы ли вводные автоматы на кондиционерах;
- имеются ли в распределительных щитах, к которым эти кондиционеры подключены, актуальные однолинейные схемы;
- промаркированы ли в этих распределительных щитах автоматы (в идеале в формате «кондиционер N»).
Не расслабляться :)
В первые жаркие дни внимательно следите за показаниями мониторинга: это позволит оперативно отследить все «узкие места», по каким-либо причинам не выявленные на этапе подготовки.
Вроде всё.
Освежающей вам прохлады в жаркий полдень!
PS: не забудьте отключить free cooling :)
0 комментариев
Вставка изображения
Оставить комментарий