Nebius открывает предварительные заказы на кластеры на базе графических процессоров NVIDIA Blackwell

Nebius Cloud
4 декабря 2024, 18:31

В настоящее время мы принимаем предварительные заказы на кластеры NVIDIA GB200 NVL72 и NVIDIA HGX B200, которые будут развернуты в наших центрах обработки данных в США и Финляндии с начала 2025 года. Эти новые кластеры, созданные на базе NVIDIA Blackwell — архитектуры, которая станет основой новой промышленной революции генеративного искусственного интеллекта, — представляют собой огромный шаг вперед по сравнению с существующими решениями.

Новое оборудование в облаке Nebius AI
В этом случае новое оборудование, которое мы собираемся предоставить — более 22 000 графических процессоров NVIDIA Blackwell будут развернуты в облаке Nebius AI-native — это полностью изменит правила игры. Для NVIDIA GB200 Grace Blackwell Superchip весь мэйнфрейм, включая систему охлаждения и даже архитектуру ЦП, был переосмыслен для размещения новейших и будущих колоссальных моделей. Система NVIDIA HGX B200, имеющая форм-фактор, который может показаться более знакомым, все еще требует адаптации, если вы ранее работали с системами NVIDIA HGX H200 или HGX H100.

Внутренняя экспертиза оборудования вашего поставщика облачных вычислений GPU имеет решающее значение для получения максимальной выгоды от инвестиций в GPU и технических аспектов запланированной миграции. Имея многолетний опыт проектирования и обслуживания высоконагруженных систем, наша команда по исследованиям и разработкам оборудования знает, как правильно настраивать и использовать сложные серверные устройства. Мы обеспечиваем максимальную производительность от каждого часа работы GPU.

Аналогично, архитектура Arm, на которой работает NVIDIA GB200 Grace Blackwell Superchip, не является чем-то, что широко использовалось в нашей области в последние годы. Специальная команда разработчиков ядра Linux от Nebius протянет здесь руку помощи — в настоящее время они создают специальный программный слой для плавной и стабильной работы этого нового оборудования. Легче интегрировать что-то столь сложное в недавно написанные системы. Всего несколько недель назад мы закончили переписывать все наше облако с нуля, поэтому нет никакого наследия, которое сдерживало бы нас при разработке поверх Arm.

Говоря о переписывании облака, одним из преимуществ для пользователей, которые мы получили в ходе этого процесса, стало создание гораздо более быстрого хранилища — как было подчеркнуто в нашем октябрьском объявлении. Мы ожидаем, что наша общая файловая система, адаптированная под ИИ, будет обеспечивать до 180 Гбит/с на стойку NVIDIA GB200 NVL72 для операций чтения, что очень важно для запуска многоузлового обучения и восстановления контрольных точек как можно быстрее. В сочетании с мощными вычислениями на GPU эти ресурсоемкие процессы станут более предсказуемыми и менее стрессовыми для вашей команды.

Многоузловые операции также требуют оркестровки при масштабировании вверх и вниз. Мы поставляем кластеры на базе NVIDIA GB200 и HGX B200 как полностью интегрированные облачные решения с управляемой оркестровкой рабочей нагрузки на основе Kubernetes и Slurm. Если возникнут какие-либо сложности, наши архитекторы решений предоставят вам всю необходимую экспертизу DevOps, чтобы сэкономить ваше время и сосредоточиться на машинном обучении.

Доступность в центрах обработки данных
NVIDIA GB200 NVL72 плотно упаковывает и соединяет графические процессоры с помощью картриджа с медным кабелем для простоты эксплуатации. Он обеспечивает в 25 раз более низкую стоимость и энергопотребление по сравнению с NVIDIA HGX H100 — скачок, который стал возможным благодаря системе жидкостного охлаждения, разработанной NVIDIA, которая в настоящее время устанавливается в нашем собственном центре обработки данных в Финляндии и на объекте колокейшн в Канзас-Сити. Проект включает компоненты, разработанные нами, чтобы помочь обеспечить бесперебойную работу оборудования при интенсивных нагрузках при обучении больших моделей на сотнях или тысячах узлов. Жидкостное охлаждение также подходит для NVIDIA HGX B200. Кроме того, мы проводим обширное тестирование каждого компонента перед развертыванием, чтобы максимизировать эффективность.

Предлагая кластеры на базе NVIDIA Blackwell в Европе и США, мы устраняем необходимость для клиентов беспокоиться о межконтинентальной задержке. Эти новые системы могут быть физически близко к вашей работе, решая даже такие детальные проблемы, как размещение зон доступности.

Вы можете оформить предварительный заказ на GB200 NVL72 или NVIDIA HGX B200 здесь и быть полностью готовыми к новой архитектуре, которая позволит вам обучать и выводить модели с беспрецедентной эффективностью.

nebius.com
console.eu.nebius.com

Nebius открывает предварительные заказы на кластеры на базе графических процессоров NVIDIA Blackwell

0 комментариев

Оставить комментарий