MWS (MTS Web Services) включает в себя всю ЦОД-инфраструктуру МТС — действующие и строящиеся площадки. Наша инфраструктура находится по всей России, число зон присутствия постоянно растет.
Сегодня количество дата-центров MWS составляет 15, включая крупные и модульные ЦОДы. Хотя последние у многих ассоциируются с контейнерным оборудованием, в нашем случае это полноценный комплекс производственных и офисных зданий общей площадью от 3500 квадратных метров.
Собственная сеть географически распределенных дата-центров играет ключевую роль для развития MWS и всего МТС. В статье расскажем, как мы обеспечиваем ее надежность, какие практики используем при строительстве и эксплуатации ЦОДов, и почему нам недостаточно просто соответствовать уровню TIER III.
Уровень надежности ЦОД: классификация Uptime Institute
Напомним, что TIER — самый известный и популярный сертификат, который присваивает Uptime Institute. Сертификация TIER объективно подтверждает, что дата-центр спроектирован, построен и эксплуатируется в соответствии с передовыми практиками отрасли. Статус TIER может быть присвоен на этапе проектирования (Design), строительства (Constructed Facility), а также в реальных условиях эксплуатации действующего ЦОДа (Operational Sustainability).
TIER делится на четыре уровня, которые отличаются между собой временем незапланированного простоя (доступности сервисов) в год. Чем выше уровень, тем выше надежность:
- TIER I — 28,8 часа (уровень отказоустойчивости 99,671%)
- TIER II — 22,0 часа (уровень отказоустойчивости 99,749%)
- TIER III — 1,6 часа (уровень отказоустойчивости 99,982%)
- TIER IV — 0,4 часа (уровень отказоустойчивости 99,995%)
Главное отличие уровня TIER III и выше — это возможность ремонта и модернизации инженерного оборудования без влияния на ИТ-нагрузку. Для выполнения этого требования нужны значительные вложения в инфраструктуру и постоянные расходы на тестирование и обслуживание.
Дата-центры MWS соответствуют уровню TIER III и подходят для размещения критически важных сервисов. Однако это не значит, что наши ЦОДы остановились в развитии на достигнутом стандарте. Мы определили оптимальный баланс между TIER III и TIER IV. Это правило действует для всех наших дата-центров — от крупных до модульных.
Ключевые параметры надежности дата-центров
Надежность ЦОДов оценивают по вполне конкретным критериям. Важно учитывать избыточность инфраструктуры — дублирование ключевых компонентов по схеме резервирования. Это нужно для их планового обслуживания и работы в случае аварии.
Рассмотрим схемы резервирования на примере дизель-генераторной установки (ДГУ) дата-центра, для простоты будем считать, что не допускаем возможности параллельной работы.
N
- Одна ДГУ, подключенная к одной линии питания
- Отказ дизель-генератора приводит к полной потере электроснабжения ЦОДа
N+1
- Дополнительная ДГУ в резерве
- В случае отказа основного дизель-генератора автоматически включится резервный
- Наиболее распространенная схема для дата-центров
2N
- Две ДГУ, каждый из которых способен обеспечить энергопитание дата-центра
- Две полностью независимые линии (каждый дизель-генератор подключен к своему источнику питания)
- Позволяет проводить плановое обслуживание или ремонт одного из дизель-генераторов без прерывания работы
2(N+1)
- Комбинация схем 2N и N+1
- Два независимых дизель-генератора, каждый из которых обеспечит электроснабжение дата-центра, плюс резерв на каждое плечо
- Крайне надежная схема, но требует значительных финансов
Согласно уровню TIER III, все критически важные элементы инженерных систем дата-центра должны резервироваться по схеме не ниже N+1, где N — это количество элементов, которое необходимо для функционирования систем. Дополнительный элемент (+1) возьмет на себя нагрузку в случае выхода из строя одного из основных элементов (N).
Допустим, есть дата-центр TIER III с двумя городскими источниками питания. Если требуется достичь резервирования с номинальной мощностью 2400 кВт, понадобится следующая конфигурация:
- 2 дизель-генератора мощностью 1200 кВт (2 x 1200 = 2400 кВт);
- 1 резервный дизель-генератор мощностью 1200 кВт.
Резервирование по схеме N+1 означает, что у нас есть три источника питания: два основных и один резервный. Если один из основных источников выйдет из строя, резервный дизель-генератор возьмет на себя нагрузку.
Выбор схемы резервирования зависит от требований к надежности и доступности дата-центра. Схема N+1 используется чаще всего, так как она обеспечивает баланс между стоимостью и надежностью. Схемы 2N и 2(N+1) применяются для дата-центров с очень высокими требованиями к надежности, таких как уровень TIER IV.
MWS придерживается схем ДГУ 2N и 2(N+1) в зависимости от возможностей размещения на площадке.
Необходимо резервировать не только «активные» элементы ЦОДа, такие как дизель-генераторы и кондиционеры, но и сопутствующую инфраструктуру. Кабели, трубы, электрощиты и другие «пассивные» элементы также должны выводиться на плановое обслуживание без риска для остального оборудования.
Отказоустойчивая инфраструктура: как это делается
Надежность ЦОДа складывается из различных факторов, многие из которых должны учитываться еще до начала строительства. Качественно спроектированная инфраструктура минимизирует риски сбоев, вызванных внутренними и внешними причинами.
Далее расскажем подробнее о системах, компонентах и принципах, определяющих отказоустойчивость наших дата-центров.
Геораспределенное резервирование
В каждой зоне доступности у нас есть, как правило, несколько дата-центров. Помимо резервирования внутри самого ЦОДа, нам важно иметь георезервирование на уровне города или региона. Обычно, чтобы синхронно реплицировать дисковые массивы, дата-центры располагаются на расстоянии от 10 до 70 км друг от друга. Благодаря настроенной связности всегда доступна как минимум одна независимая копия.
Оформление строительства
Мы выбираем площадки с условием разрешенного использования «Связь» и проходим экспертизу. Эксперты подтверждают, что здание соответствует всем нормативам: выполнены требования по несущей способности плит перекрытий, отоплению, санитарно-защитной зоне и другим параметрам.
Территорию для ЦОД выбираем тщательно. Мы давно перестали размещать ЦОДы в уже существующих зданиях и выбираем участки, которые можно оформить в собственность.
Помимо соблюдения строительных норм, важно, чтобы объект не представлял угрозу для здоровья. Поэтому ЦОД строится так, чтобы минимизировать шум от дизель-генераторов и кондиционеров.
Система электроснабжения
Система распределения электропитания в дата-центре имеет критическое значение. Она должна обеспечивать непрерывную и надежную работу серверов и инженерного оборудования даже в условиях множественных технических или человеческих ошибок.
В схеме N+1 для систем электроснабжения есть существенный недостаток — все резервные и основные устройства подключены параллельно к единой шине питания, обеспечивающей распределение электроэнергии.
Единая линия питания — это критическая часть инфраструктуры, отказ которой приведет к полной потере работоспособности ЦОДа. При повреждении одного внешнего кабеля из-за земляных работ можно потерять всю резервную систему питания.
Кроме того, при параллельной работе нескольких дизель-генераторов необходимо обеспечить их синхронизацию. Любой рассинхрон может привести к сбоям в работе. Чтобы решить эту проблему, нужно ставить контроллеры, которые синхронизируют устройства в единую синусоиду.
Вместо схемы N+1 мы используем 2N или 2(N+1): зависит от возможностей площадки. Важно отметить — мы строго разделяем ИТ-нагрузку и инженерные системы — на каждую нагрузку своя системы ИБП.
Рассмотрим на примере площадки с двумя отдельными системами питания по 2400 кВт каждая. При схеме 2N каждый дизель-генератор подключен к своей кабельной линии. Отказ любого генератора или кабеля не приведет к прерыванию работы всей системы.
Дополнительно к этому у нас есть требование — внутри самой площадки всегда разделять инженерное оборудование по зонам. То есть, если у нас два луча электропитания, то абсолютно всё оборудование должны быть разнесено по разным помещениям.
Таким образом, систему электроснабжению в дата-центрах мы строим следующим образом:
Используются в качестве резервных источников на случай отключения основного питания.
Основные источники питания, предоставляющие электроэнергию от городской сети. Наличие двух вводов обеспечивает надежность системы, поскольку снижает вероятность полного отключения питания из-за проблем на одной из линий.
- Серверные стойки с двойным питанием
У всех серверов есть два блока питания, каждый из которых подключен к своей линии питания. Это позволяет серверу продолжать работу, даже если один из блоков выйдет из строя.
- Система AВР (автоматическое включение резерва) «в крест»
Схема позволяет каждому из питательных лучей (А и Б) получать электроэнергию как от любого городского ввода, так и от любого дизель-генератора. АВР обеспечивает максимальную надежность: даже если один или оба городских ввода отключатся, либо выйдет из строя один из дизель-генераторов, оба луча продолжат получать энергию от оставшихся источников.
Даже если одновременно произойдут три аварии (на двух линиях питания и одном генераторе), наша система обеспечит стабильную работу дата-центра.
Горячая замена инженерного оборудования
Также стоит отметить особенности конструкции и эксплуатации выключателей в системе электроснабжения. В отличие от домашней системы, где замена выключателя требует отключения всего питания, в дата-центре можно провести замену без отключения щита электроснабжения и заменить любой автомат «на горячую».
Система позволяет проводить техническое обслуживание на активном оборудовании. Быстрая замена компонентов питания значительно сокращает время простоя и повышает общую надежность ЦОДа.
Источники бесперебойного питания
ИБП — сердце ЦОДа. Это универсальное решение для обеспечения надежности, эффективности и бесперебойного функционирования дата-центра.
Основные функции ИБП:
- Обеспечение качественным электропитанием
ИБП сглаживают колебания в электросети и подают на серверы стабилизированное напряжение, что крайне важно для надежной работы чувствительного к электропитанию оборудования.
- Автономная работа при отключении основного питания
В случае прерывания подачи городского электричества, ИБП автоматически берет на себя функцию питания оборудования, обеспечивая бесперебойную работу до тех пор, пока не включится дизель-генератор.
N+1 в контексте ИБП
Схема N+1 подразумевает наличие хотя бы одного резервного ИБП или силового модуля на случай выхода из строя основного.
Плавное и автоматизированное переключение между разными источниками питания минимизирует риск сбоев. Рассмотрим подробнее каждый этап этого процесса:
1. Отключение городского питания
При аварии и исчезновении городского питания система автоматически детектирует проблему. Сбой фиксируется на главном распределительном щите.
2. Нагрузка на ИБП
ИБП по технологии Online берет на себя нагрузку и продолжает питать ИТ-оборудование от АКБ.
3. Запуск дизель-генераторов
Пока ИБП работают, запускаются дизель-генераторы (процесс может занять несколько минут).
4. Переключение нагрузки на дизель-генераторы
Как только дизель-генераторы полностью запущены и стабилизированы, нагрузка автоматически переводится с отсутствующего городского ввода на них. Конечно же, ИБП продолжают работать в режиме Online.
ИБП не отключаются, они всегда работают в режиме Online, но перестают питать оборудование от аккумуляторов.
5. Зарядка аккумуляторов ИБП
После переключения нагрузки на дизель-генераторы, аккумуляторные батареи ИБП переходят в режим зарядки, чтобы быть готовыми к следующему возможному отключению питания.
6. Автоматическое управление переключением
Все переключения между источниками питания происходят в автоматическом режиме по заранее настроенному алгоритму, что исключает человеческую ошибку и обеспечивает непрерывность работы.
Для TIER III достаточно одного резервного ИБП, но в наших корпоративных дата-центрах подход к резервированию гораздо строже. Мы используем схему 2(N+1) для ИТ и ИБП инженерных систем. Наша система резервирования ИБП достигает уровня надежности выше, чем TIER IV, что обеспечивает ее стабильную работу даже при множественных отказах.
Cистемы питания легко масштабировать за счет модульных ИБП, которые можно комбинировать для достижения необходимой общей мощности (например, из элементов по 100 киловатт). Модульная структура позволяет с легкостью наращивать мощность и обслуживать инженерное оборудование, заменяя только необходимые компоненты.
В контексте модульных источников питания подход N+1 иногда трактуют как добавление одного дополнительного модуля (+1) в конфигурацию. Однако для надежного и честного резервирования нужно использовать отдельное шасси для каждого дополнительного источника питания (N+1).
Также стоит отметить резервирование АКБ при применении ИБП. Часто, соблюдая резервирование N+1, в ИБП не уделяют должного внимания батареям. Допустим, надо зарезервировать 100 кВт мощности на 15 минут, и для этого хватит условных 50 шт. батарей. Для честной схемы N+1 потребуется два ИБП по 100 кВт, и к ним можно подключить общий массив АКБ из 50 шт., но при выходе из строя АКБ система даст сбой.
MWS же поставит 2 ИБП по 100 кВт и для каждого свой массив АКБ из 50 шт. — тем самым фактически сделав схему 2N.
По схеме подключения внешнего электропитания, использованию дизель-генераторов, ИБП и другого оборудования, мы полностью соответствуем уровню TIER IV.
Повышение надежности ИБП
Uptime Institute не указывает конкретные требования к типам батарей. Мы считаем, что они должны служить минимум 10 лет и соответствовать стандартам европейского объединения производителей аккумуляторов EUROBAT. Однако это ничего не говорит о качестве самих компонентов.
Использование дешевых и низкокачественных батарей увеличивает риск отказов, особенно в аварийных ситуациях, когда ИБП работают под нагрузкой. Если одна батарея выходит из строя, это может нарушить работу всей системы из-за несовпадения параметров напряжения и тока.
Кому-то, возможно, удобнее поставить какие угодно батареи, а затем отправить сотрудника на регулярную проверку каждой ИБП. Такой подход не для нас, он затратен и не эффективен с точки зрения человеческого фактора. Поэтому мы много внимания уделяем выбору качественных компонентов системы.
Защита от перепадов напряжения
Некоторые серверы и инженерное оборудование могут иметь только один блок питания, что делает их уязвимыми к перебоям в подаче электроэнергии. В современных ЦОДах, где к стойкам подводятся два источника питания, даже технику с одним блоком можно защитить с помощью локальных АВР (STS).
Локальный АВР принимает два источника питания и переключает их в один на выходе — решение эффективно обеспечивает надежное электроснабжение в случае сбоев.
Хладоцентр: принципы надежной работы
С помощью хладоцентра в ЦОДе обеспечиваются оптимальные условия температуры и влажности. Он включает в себя различные системы:
- вентиляции;
- охлаждения;
- контроля влажности;
- автоматического переключения на резерв.
Наши хладоцентры организованы по классической схеме N+1. Причем по этой схеме работает всё инженерное оборудование: чиллеры, насосы, кондиционеры, системы увлажнения и осушения, вентиляционные установки и т. д.
По системе трубопроводов насосы прокачивают хладоноситель от чиллеров во внутренние кондиционеры, где через теплообменники и вентиляторы охлажденный воздух подводится к серверным стойкам.
Между чиллерами, расположенными на улице, и внутренними кондиционерами нет прямой линии информационной связи. Их координация происходит через физическое взаимодействие — посредством гидравлической системы, в которой циркулирует хладоноситель. Данные устройства «общаются» друг с другом через изменения температуры и расхода хладоносителя.
Важно отметить, что в системе охлаждения с чиллером используем кольцевую схему с возможностью переключения на лучевую, в которой можно проводить любые работы без отключения ИТ нагрузки. С помощью различных типов запорной арматуры (клапанов, задвижек) мы манипулируем потоком, чтобы изолировать поврежденные или нуждающиеся в обслуживании участки без воздействия на остальную систему.
Все системы холодоснабжения запитаны по двум независимым лучам, что значительно повышает надежность. Согласно TIER III вполне возможно подключать машзалы и инженерную инфраструктуру к общим источникам бесперебойного питания. Но мы пошли другим путем — хладоцентр подключен к собственным независимым ИБП.
Даже в случае большой аварии, связанной с полной потерей активного охлаждения, серверы будут работать. Для этого мы используем накопительные баки — специальные емкости, содержащие запас холодного теплоносителя. Если электричество отключится, теплоноситель из баков поступит в кондиционеры.
Накопительные баки обеспечивают охлаждение на время, превышающее время автономной работы ИБП ИТ. Если внештатная ситуация длится долго, АКБ ИБП разряжаются, чиллеры не работают, серверы все равно будут охлаждаться.
Наконец, в машзалах нет кондиционеров и труб с холодным теплоносителем. У Uptime Institute нет такого требования, но мы хотим полностью исключить контакт серверов с жидкостью и минимизировать присутствие обслуживающего персонала в машзалах.
Система пожаротушения
Uptime Institute не предоставляет конкретных рекомендаций, как реализовать систему пожаротушения. Варианты есть разные — например, можно использовать мелкодисперсную воду. Но согласно нашим внутренним стандартам, мы не проводим трубы с жидкостями в машзалы. Поэтому везде подключаем систему газового пожаротушения. Мы используем безопасный для людей и оборудования газ, который быстро распадается и не оставляет загрязнений.
В машзалах установлена система раннего пожарообнаружения, которая определяет возгорание на самой ранней стадии, еще до появления открытого огня и большого задымления. Система закачивает воздух в трубки из разных частей машзала, включая область над серверными стойками и в зоне тепло-холодных коридоров (где создается воздушный поток для охлаждения серверов). Принудительно забранный воздух поступает в специальную установку и анализируется на наличие мельчайших частиц продуктов горения.
Система пожарообнаружения оснащена несколькими уровнями срабатывания сигнала тревоги. Например, это может быть предупреждение о возможной неисправности или начале горения. В случае подтверждения возгорания она может автоматически пустить газ. Так или иначе, персонал сразу получит уведомление.
Изоляция инженерного оборудования
Согласно стандарту TIER III, оборудование инженерной инфраструктуры (кондиционеры, главный распределительный щит, аккумуляторные батареи и т. д.) можно разместить в одном помещении. Очевидно, что такой подход имеет недостатки.
В наших дата-центрах все важные системы разнесены по изолированным помещениям, что соответствует уровню TIER IV. Такое разделение критически важно для предотвращения остановки дата-центра в случае пожара или другой аварии. Разделение помещений также предотвращает взаимное влияние техники.
Изоляция машзалов
Согласно отчетам Uptime Institute, за последние три года 40% инцидентов в ЦОДах были вызваны человеческим фактором. Из этих инцидентов 85% происходят из-за несоблюдения сотрудниками процедур или изъянов в самих процессах и процедурах.
Чтобы снизить влияние человеческого фактора, с помощью СКУД мы разграничили, кто из сотрудников и в какие помещения имеет доступ. Это значит, что никто без особой необходимости не приблизится к чувствительному серверному оборудованию.
Uptime Institute не нормирует распределение прав доступа, поэтому наши внутренние стандарты безопасности превосходят общепринятые практики TIER.
Изоляция батарей питания
Аккумуляторные батареи — самый пожароопасный элемент ЦОДа. Это связано с химическим составом и свойствами аккумуляторов, которые при определенных условиях (например, перегреве, коротком замыкании или физическом повреждении) легко могут вызвать возгорание.
Все аккумуляторные батареи мы изолируем — они физически отделены от других помещений и элементов инфраструктуры. Для дополнительной безопасности помещения с аккумуляторами располагаются в разных частях здания ЦОДа.
Заключение. Почему важно превзойти уровень TIER III
Во всем мире сертификация TIER играет ключевую роль для коммерческих дата-центров; является объективной и независимой оценкой, которая помогает клиентам сделать выбор. Но сертификация — это не единственный критерий надежности.
MWS при строительстве ЦОДов придерживается высоких стандартов надежности и доступности, которые могут превосходить общепринятые для рынка. Наша система распределенных дата-центров — это единая коммунальная инфраструктура для экосистемы МТС. От ее эффективной работы зависит функционирование всех сервисов МТС. Поэтому мы дублируем и резервируем больше, чем требует стандарт TIER III.
Опираясь на собственный 20-летний опыт построения сложных инфраструктурных проектов, мы уделяем больше внимания важным моментам в строительстве дата-центров, которые не прописаны достаточно либо не указаны вовсе у Uptime Institute. В результате наша практика строительства и эксплуатации дата-центров обеспечивает ещё большую надежность и доступность сервисов.