Вчера, 02.04.2019, корпорация Intel объявила о долгожданном обновлении процессоров семейства Intel Xeon Scalable Processors, представленного в середине 2017 года. Новые процессоры базируются на микроархитектуре, получившей кодовое имя Cascade Lake и построены по улучшенному 14-nm технологическому процессу.
Особенности новых процессоров
Для начала взглянем на отличия в маркировке. В предыдущей статье про Skylake-SP мы уже упоминали, что все процессоры делятся на 4 серии — Bronze, Silver, Gold и Platinum. О том, к какой серии принадлежит модель процессора говорит первая цифра номера:
- 3 — Bronze,
- 4 — Silver,
- 5, 6 — Gold,
- 8 — Platinum.
Вторая цифра сообщает о поколении процессора. В случае с семейством Intel Xeon Scalable Processors поколения с кодовыми именами:
- 1 — Skylake,
- 2 — Cascade Lake.
Следующие две цифры обозначают так называемый SKU (Stock Keeping Unit). По сути, это просто идентификатор CPU с конкретным набором доступных функций.
Также после номера модели могут идти индексы, обозначаемые одной или двумя буквами. Первая буква индекса обозначает особенности архитектуры или оптимизации самого процессора, а вторая — емкость памяти на сокет.
Для примера, возьмем процессор с обозначением Intel Xeon 6240. Расшифруем:
- 6 — процессор серии Gold,
- 2 — поколение Cascade Lake,
- 40 — SKU.
Производительность
Процессоры нового поколения спроектированы с расчетом на использование в сферах виртуализации, искусственного интеллекта, а также высокоэффективных вычислений. Первым заметным изменением стал рост тактовой частоты. Это стало вполне ожидаемо, поскольку существует большое количество серверных приложений, для которых тактовая частота важнее, чем количество процессорных ядер. Например, финансовый продукт 1С, системные требования которого явно говорят, что чем быстрее частота процессора, тем быстрее конечный пользователь получит результат.
В ряде случаев было увеличено и количество ядер. Для наглядности мы составили сравнительные таблицы нескольких процессоров семейства Intel Xeon Scalable Processors первого и второго поколения:
Рост тактовой частоты неизбежно влечет за собой повышение тепловыделения. Для флагманских процессоров серии Platinum оно может достигать 205W, что является весьма серьезным испытанием для традиционной воздушной системы охлаждения. Можно предположить, что в обозримом будущем серверные платформы потребуют жидкостного охлаждения.
Как и в предыдущем поколении Skylake SP, процессоры устанавливаются в
сокет LGA3647 (Socket P), что обусловлено использованием 6-канального контроллера памяти (максимально до 2-х модулей памяти на канал). Частота памяти составляет 2666 MT/s, однако при использовании процессоров серий 6000 и 8000 можно задействовать память с частотой 2933 MT/s (не более 1 модуля на каждый канал).
Шина Ultra-Path Interconnect, успешно примененная в процессорах первого поколения Intel Xeon SP, осталась и во втором поколении, обеспечивая обмен данными между процессорами на скоростях 9.6 GT/s либо 10.4 GT/s для каждого канала. Это позволяет эффективно масштабировать аппаратную платформу до 8 физических процессоров, оптимизируя пропускную способность и энергоэффективность.
Тесты
Мы начали тестировать процессоры нового поколения с помощью набора тестов SPEC, которые имитируют нагрузку, основанную на решении наиболее насущных жизненных задач. Эти тесты представляют собой как простейшие вычисления, так и расчет различных физических процессов, например, решения задач молекулярной физики и гидродинамики.
На текущий момент у нас готовы результаты некоторых SPEC-тестов для целочисленных вычислений на примере процессоров Intel Xeon Gold 6140 и Intel Xeon Gold 6240.
- Результаты IntRate
- Результаты IntSpeed
- Описание тестов
По результатам проведенных тестов становится ясно, что процессоры нового поколения быстрее выполняют целочисленные вычисления по сравнению с предыдущим поколением. С результатами других тестов мы поделимся в одной из следующих статей.
Поддержка Intel Optane DC Persistent Memory
Ускорение работы высоконагруженных баз данных и приложений — это то, чего ожидали все заказчики от грядущего обновления. Поэтому ключевым нововведением стала поддержка памяти Intel Optane DC Persistent Memory, более известной под кодовым именем Apache Pass.
Эта память призвана стать универсальным решением задачи, когда использование DRAM нужного объема экономически невыгодно, а скоростных характеристик даже флагманских SSD-накопителей недостаточно.
Ярким примером может стать размещение баз данных напрямую в памяти Intel Optane DC Persistent Memory, что позволит избежать необходимости постоянного обмена данными между оперативной памятью и устройством хранения данных (особенность, присущая традиционным системам).
Новый тип памяти устанавливается непосредственно в слот DIMM и полностью с ним совместим. Доступны модули со следующим объемом:
Настолько существенные объемы модулей позволят гибко сконфигурировать аппаратную платформу, получив весьма емкое и очень быстрое дисковое пространство для работы высоконагруженных систем.
Intel Optane DC Persistent Memory обладает поистине огромным потенциалом для применения, в том числе и для целей машинного обучения.
Ускорение глубинного обучения
Помимо поддержки нового типа памяти инженеры Intel позаботились и об ускорении процесса глубинного обучения. Поскольку для сверточных нейронных сетей часто требуется многократное умножение 8-ми и 16-ти битных значений, новые процессоры получили поддержку инструкций
AVX-512 VNNI (Vector Neural Network Instructions). Это позволит оптимизировать и ускорить вычисления в несколько раз.
Лучшая эффективность достигается за счет внедрения следующего набора инструкций:
- VPDPBUSB (для вычислений INT8),
- VPDPWSSD (для вычислений INT16).
Суть в том, чтобы уменьшить количество элементов, обрабатываемых за цикл. Инструкция VPDPWSSD объединяет две инструкции INT16, а также использует константу INT32, чтобы заменить две текущие инструкции PMADDWD и VPADDD. Инструкция VPDPUSB аналогично сокращает количество элементов, заменяя три существующие инструкции VPMADDUSBW, VPMADDWD и VPADDD.
Таким образом, при правильном применении нового набора инструкций можно в два-три раза сократить количество обрабатываемых элементов за цикл и увеличить скорость обработки данных. Соответствующий фреймворк для новых инструкций станет частью таких популярных программных библиотек для машинного обучения, как:
TensorFlow
Cafee
MXNet
Intel MKL-DNN
Оптимизация распределения нагрузки
Равномерная загрузка вычислительных ресурсов стала проще с технологией Intel Speed Select Technology (на процессорах с индексом Y). Суть в том, что каждая операция начинает ассоциироваться с количеством задействованных ядер и тактовой частотой. В зависимости от выбранного профиля каждой операции выделяются ресурсы следующим образом:
- больше ядер, но с пониженной тактовой частотой;
- меньше ядер, но с повышенной тактовой частотой.
Такой подход позволяет наиболее полно утилизировать ресурсы, что особенно важно при использовании виртуализованных сред. Это позволит уменьшить затраты, оптимизировав нагрузку на хосты виртуализации.
Акселерация научных вычислений
Обработка научных данных, особенно при моделировании физических процессов на уровне частиц (например, расчет электромагнитных взаимодействий) требует колоссального количества параллельных вычислений. Эта задача может быть решена при помощи CPU, GPU или FPGA.
Многоядерные CPU универсальны за счет наличия большого количества программных средств и библиотек для обработки данных. Применение GPU для этих целей также весьма эффективно, ведь на них можно запускать тысячи параллельных потоков непосредственно на аппаратных графических ядрах. Существуют удобные для разработки фреймворки, такие как OpenCL или CUDA, позволяющие создавать приложения любой сложности с использованием вычислений на GPU.
Тем не менее, существует еще один аппаратный инструмент, о котором мы уже рассказывали в предыдущих статьях — FPGA. Возможность запрограммировать такие устройства на выполнение специфических вычислений позволяет ускорить обработку данных, частично разгрузив CPU. Подобный сценарий можно реализовать на новых процессорах Cascade Lake в связке с дискретными Intel Stratix 10 SX FPGA.
Несмотря на меньшую по сравнению с обычными CPU тактовую частоту, FPGA способен показать производительность в десятки раз выше. Для некоторых видов задач, таких как обработка цифровых сигналов,
Intel Stratix 10 SX способна показать результаты до 10 TFLOPS (tera floating-point operations per second).
Масштабирование платформ
Ведение бизнеса в реальном времени подразумевает не только стабильность, но и возможность масштабирования on-demand. Хорошим примером может послужить высокопроизводительная платформа SAP HANA, используемая для хранения и обработки данных. Физическое развертывание этой платформы требует весьма мощных аппаратных ресурсов.
Процессоры Intel Xeon Scalable созданы таким образом, чтобы превратить многосокетные системы в базовые элементы IT-инфраструктуры, обеспечивая масштабирование для удовлетворения требований бизнес-приложений.
Реализовано это в виде поддержки внешних Node-контроллеров, что позволяет создать конфигурации более высокого уровня, чем может обеспечить одна отдельно взятая платформа. Например, можно создать конфигурацию из 32 физических процессоров, объединив ресурсы нескольких многосокетных платформ в единое целое.
Заключение
Увеличение рабочих частот и процессорных ядер, увеличение производительности, поддержка памяти Intel Optane DC Persistent Memory— все эти улучшения значительно повышают вычислительную мощность каждой платформы, сокращая затраты на количество используемого оборудования и повышая эффективность обработки данных. Принцип масштабируемости, заложенный на уровне архитектуры, позволяет выстраивать IT-инфраструктуру любой сложности и достигать высоких показателей производительности и энергоэффективности.
Поскольку Selectel является партнером Intel уровня Platinum — нашим клиентам уже сейчас доступны для заказа процессоры Intel Xeon Scalable нового поколения в серверах произвольной конфигурации.
Арендовать сервер c процессорами нового поколения очень просто! Достаточно перейти на страницу конфигуратора и выбрать нужные комплектующие. Любые вопросы, относительно работы услуг можно задать нашим специалистам, создав тикет в панели управления. Оплачивая сервер на несколько месяцев вперед, Вы получаете скидку до 15%.
selectel.ru/services/dedicated/configurator/
my.selectel.ru/tickets/create
Если же вам интересно принять участие в тестировании самых новейших технологий, то присоединяйтесь к нашей лаборатории Selectel Lab.
selectel.ru/promo/intel-xeon-scalable/