Рейтинг
0.00

Nebius Cloud

0 читателей, 8 топиков

Nebius открывает предварительные заказы на кластеры на базе графических процессоров NVIDIA Blackwell



В настоящее время мы принимаем предварительные заказы на кластеры NVIDIA GB200 NVL72 и NVIDIA HGX B200, которые будут развернуты в наших центрах обработки данных в США и Финляндии с начала 2025 года. Эти новые кластеры, созданные на базе NVIDIA Blackwell — архитектуры, которая станет основой новой промышленной революции генеративного искусственного интеллекта, — представляют собой огромный шаг вперед по сравнению с существующими решениями.

Новое оборудование в облаке Nebius AI
В этом случае новое оборудование, которое мы собираемся предоставить — более 22 000 графических процессоров NVIDIA Blackwell будут развернуты в облаке Nebius AI-native — это полностью изменит правила игры. Для NVIDIA GB200 Grace Blackwell Superchip весь мэйнфрейм, включая систему охлаждения и даже архитектуру ЦП, был переосмыслен для размещения новейших и будущих колоссальных моделей. Система NVIDIA HGX B200, имеющая форм-фактор, который может показаться более знакомым, все еще требует адаптации, если вы ранее работали с системами NVIDIA HGX H200 или HGX H100.

Внутренняя экспертиза оборудования вашего поставщика облачных вычислений GPU имеет решающее значение для получения максимальной выгоды от инвестиций в GPU и технических аспектов запланированной миграции. Имея многолетний опыт проектирования и обслуживания высоконагруженных систем, наша команда по исследованиям и разработкам оборудования знает, как правильно настраивать и использовать сложные серверные устройства. Мы обеспечиваем максимальную производительность от каждого часа работы GPU.



Аналогично, архитектура Arm, на которой работает NVIDIA GB200 Grace Blackwell Superchip, не является чем-то, что широко использовалось в нашей области в последние годы. Специальная команда разработчиков ядра Linux от Nebius протянет здесь руку помощи — в настоящее время они создают специальный программный слой для плавной и стабильной работы этого нового оборудования. Легче интегрировать что-то столь сложное в недавно написанные системы. Всего несколько недель назад мы закончили переписывать все наше облако с нуля, поэтому нет никакого наследия, которое сдерживало бы нас при разработке поверх Arm.

Говоря о переписывании облака, одним из преимуществ для пользователей, которые мы получили в ходе этого процесса, стало создание гораздо более быстрого хранилища — как было подчеркнуто в нашем октябрьском объявлении. Мы ожидаем, что наша общая файловая система, адаптированная под ИИ, будет обеспечивать до 180 Гбит/с на стойку NVIDIA GB200 NVL72 для операций чтения, что очень важно для запуска многоузлового обучения и восстановления контрольных точек как можно быстрее. В сочетании с мощными вычислениями на GPU эти ресурсоемкие процессы станут более предсказуемыми и менее стрессовыми для вашей команды.



Многоузловые операции также требуют оркестровки при масштабировании вверх и вниз. Мы поставляем кластеры на базе NVIDIA GB200 и HGX B200 как полностью интегрированные облачные решения с управляемой оркестровкой рабочей нагрузки на основе Kubernetes и Slurm. Если возникнут какие-либо сложности, наши архитекторы решений предоставят вам всю необходимую экспертизу DevOps, чтобы сэкономить ваше время и сосредоточиться на машинном обучении.

Доступность в центрах обработки данных
NVIDIA GB200 NVL72 плотно упаковывает и соединяет графические процессоры с помощью картриджа с медным кабелем для простоты эксплуатации. Он обеспечивает в 25 раз более низкую стоимость и энергопотребление по сравнению с NVIDIA HGX H100 — скачок, который стал возможным благодаря системе жидкостного охлаждения, разработанной NVIDIA, которая в настоящее время устанавливается в нашем собственном центре обработки данных в Финляндии и на объекте колокейшн в Канзас-Сити. Проект включает компоненты, разработанные нами, чтобы помочь обеспечить бесперебойную работу оборудования при интенсивных нагрузках при обучении больших моделей на сотнях или тысячах узлов. Жидкостное охлаждение также подходит для NVIDIA HGX B200. Кроме того, мы проводим обширное тестирование каждого компонента перед развертыванием, чтобы максимизировать эффективность.

Предлагая кластеры на базе NVIDIA Blackwell в Европе и США, мы устраняем необходимость для клиентов беспокоиться о межконтинентальной задержке. Эти новые системы могут быть физически близко к вашей работе, решая даже такие детальные проблемы, как размещение зон доступности.

Вы можете оформить предварительный заказ на GB200 NVL72 или NVIDIA HGX B200 здесь и быть полностью готовыми к новой архитектуре, которая позволит вам обучать и выводить модели с беспрецедентной эффективностью.

nebius.com
console.eu.nebius.com

Nebius Group привлекла $700 млн в рамках частного размещения для расширения ИИ-инфраструктуры



Nebius Group N.V. объявила о привлечении $700 млн в рамках частного размещения от группы институциональных и аккредитованных инвесторов, включая Accel, Nvidia и Orbis Investments. Эти средства поддержат планы по расширению ИИ-инфраструктуры, включая крупные GPU-кластеры и облачные платформы. Об этом сообщила компания.

Генеральный директор Аркадий Волож отметил, что финансирование позволит ускорить расширение технологий, охватывающих два континента. Основной бизнес компании включает около 400 инженеров и команду по разработке моделей обработки естественного языка.

Nebius намерена продолжить развитие за счет построения дата-центров и расширения существующих мощностей. Недавно запущенная AI Studio предоставляет разработчикам доступ к современным моделям с низкими ценами.

В ходе частного размещения компания выпустит 33 333 334 акции класса A по цене $21 за акцию. Закрытие сделки ожидается после соблюдения всех условий. Правление планирует предложить Мэтта Вейганда из Accel на пост директора.

Решение отказаться от выкупа акций связано с высокими торговыми показателями после возобновления торговли на Nasdaq. Компания пересмотрела прогнозы и ожидает, что годовой доход достигнет от $750 млн до $1 млрд к концу 2025 года.

Goldman Sachs выступает единственным агентом по размещению и финансовым консультантом в этом процессе. Акции не зарегистрированы в соответствии с Законом о ценных бумагах 1933 года и не могут предлагаться или продаваться в США без регистрации или соответствующего освобождения.

Nebius открывает свою первую зону доступности в США



Зона доступности в Канзас-Сити, запуск которой запланирован на первый квартал 2025 года, будет включать в себя тысячи современных графических процессоров NVIDIA, в первую очередь графические процессоры H200 Tensor Core на начальном этапе, а энергоэффективная платформа NVIDIA Blackwell, как ожидается, появится в 2025 году.

Мы станем первым арендатором по размещению оборудования в дата-центре Канзас-Сити, принадлежащем нашему партнеру.
Патмос, которая предоставляет облачные решения, решения для высокоплотных вычислений, программного обеспечения и центров обработки данных.

Мы выбрали Patmos за продемонстрированную гибкость и опыт в поэтапном строительстве, поставляя индивидуальные сборки центров обработки данных быстрее, чем это предусмотрено отраслевым стандартом. Первая фаза строительства включает в себя обширные обновления инфраструктуры: резервные копии, генераторы и пространство в клетях, адаптированные для поддержки наших высоких требований к рабочей нагрузке.

Недавно Patmos перепрофилировал объект, превратив культовую печатную машину Kansas City Star в современный центр обработки данных ИИ. Размещение может быть расширено с первоначальных 5 МВт до 40 МВт, или около 35 тысяч графических процессоров, при полной потенциальной мощности.



Новая зона доступности позволит нам еще лучше удовлетворять потребности американских компаний, занимающихся ИИ. Для более эффективной работы с ними и для удобства нашей растущей команды мы также недавно объявили об открытии трех офисов по всей стране.

Это происходит как раз тогда, когда первые клиентские рабочие нагрузки развертываются в нашем парижском центре обработки данных colocation, который мы представили менее двух месяцев назад. Наряду с нашим собственным ЦОД в Финляндии, мощность которого мы утраиваем, Nebius будет иметь три зоны доступности, и это только начало. Мы продолжим строить инфраструктуру ИИ по обе стороны Атлантики в 2025 году и далее.

Nebius открывает офисы в США



Мы заявляем о себе на карте Соединенных Штатов.
Сделав первые шаги в Америке, мы поняли, что спрос на облачные сервисы AI-native на рынке США беспрецедентен. Расширение нашего присутствия в США означает, что мы можем быть ближе к нашим клиентам и поддерживать инновационные американские компании AI на их пути в будущее.

А также активно найм
В США у нас теперь также есть клиентские центры, где мы можем встречаться с нашими клиентами и партнерами, и где сотрудники Nebius могут работать в среде, способствующей творчеству. Наша первая база находится в культовом здании Ferry Building в Сан-Франциско. У нас также есть прекрасное пространство на Dallas Parkway в Техасе — недалеко от штаб-квартиры нашей дочерней компании Avride в Остине. Наш третий офис откроется в Нью-Йорке в конце этого года.

Предстоящие вебинары Nebius: выберите тему — преодоление разрыва между Slurm и K8s или тонкая настройка LLM с MLflow



В этом месяце мы рады предложить не один, а два вебинара, призванных повысить ваш уровень знаний в области машинного обучения.

Проводимые нашими экспертами ML, эти сессии будут изучать практические решения современных задач в области HPC и машинного обучения. Зарегистрируйтесь сейчас, используя ссылки ниже!

Как Slurm встречает K8s: представляем Soperator
4 декабря, среда, 18:00 UTC+1

Узнайте, как Soperator, наш оператор K8s с открытым исходным кодом для Slurm, заполняет пробел между ними, предлагая непревзойденную масштабируемость и эффективность для рабочих нагрузок машинного обучения и высокопроизводительных вычислений.
Для кого: инженеров машинного обучения, проводящих распределенное обучение, специалистов по высокопроизводительным вычислениям, управляющих крупномасштабными рабочими нагрузками, команд DevOps, поддерживающих среды машинного обучения и высокопроизводительных вычислений.
nebius.com/events/webinar-how-slurm-meets-k8s-introducing-soperator

Управляемый MLflow
Тонкая настройка LLM с помощью MLflow: практическое руководство
18 декабря, среда, 17:00 UTC+1

Узнайте, как MLflow может оптимизировать ваш рабочий процесс тонкой настройки LLM. Изучите лучшие практики для отслеживания экспериментов, управления моделями и совместной работы в проектах LLM с помощью мощных функций MLflow.
Для кого: инженеры машинного обучения и специалисты по обработке данных, желающие внедрить готовые к использованию решения LLM.
nebius.com/events/webinar-fine-tuning-llms-with-mlflow

Мы запускаем новую платформу Nebius, созданную с нуля



Мы разработали новую версию платформы Nebius, которая, как мы считаем, будет служить вашим потребностям еще лучше. Она уже тестируется нашей внутренней командой LLM R&D и рядом клиентов. Теперь мы выпускаем ее для всех.

Когда мы впервые запустили Nebius, мы начали с использования того, чему научились при создании общедоступного облака, что помогло нам быстро приступить к работе. Теперь мы видим лучшие способы делать вещи, поэтому мы создали совершенно новую, эффективную и удобную для пользователя облачную платформу ИИ.

Наша новая платформа отличается более быстрым бэкэндом хранилища, поддержкой новых графических процессоров и наших новейших услуг машинного обучения, лучшей наблюдаемостью и более интуитивным пользовательским интерфейсом. С сильным акцентом на потребности ИИ, она предоставляет энтузиастам и практикам машинного обучения надежную, функциональную среду для их амбициозных инициатив. Кстати, мы иногда называем ее Newbius, новый Nebius, вы знаете.

Более быстрое хранилище для лучшей производительности
Хранилище имеет решающее значение — особенно для обучения машинному обучению. Для лучшей поддержки рабочих нагрузок ИИ мы внесли технические изменения и низкоуровневые обновления в наше файловое хранилище, увеличив производительность до 100 Гбит/с и 1 млн IOPS для агрегированных операций чтения. Вот что изменилось:

Мы увеличили пропускную способность файловой системы, устранив архитектурные узкие места в ее внутренней структуре.

Наше файловое хранилище теперь имеет более высокую пропускную способность чтения и более низкую задержку благодаря расширению минимального размера фрагмента данных. Эти улучшения сокращают IO на CPU, освобождая вычислительные ресурсы.

Мы переработали способ передачи файлов и их метаданных в хранилище файлов, ускорив его за счет параллельной загрузки.

Оптимизированные настройки теперь позволяют быстрее работать с Pytorch Dataloader.

Эти изменения обеспечивают бесперебойную потоковую передачу данных во время обучения модели и предотвращают сбои при сохранении контрольных точек, загрузке кода модели или совместном использовании весов модели между узлами кластера.

Новые графические процессоры, новые возможности
Новая платформа позволяет получить доступ к графическим процессорам NVIDIA H200 Tensor Core, которые в настоящее время поступают в наши серверные стойки. Оставайтесь с нами, чтобы узнать больше об этих предложениях.


Мы также внедрили несколько сетевых изменений, определяющих, как наше облако взаимодействует с нашими физическими объектами, что открывает путь для плавной интеграции новых центров обработки данных в нашу инфраструктуру.

Более легкий доступ к услугам МО
Недавно мы запустили два новых управляемых сервиса для улучшения операций ML наших клиентов: Managed Spark™ и Managed MLflow. Оба теперь доступны на нашей новой консоли.

Managed Service for Apache Spark — это полностью управляемый движок обработки данных, разработанный для упрощения и ускорения инженерии данных и рабочих нагрузок машинного обучения. Apache Spark славится своей скоростью и простотой использования в обработке больших данных.

Managed Service for MLflow — это полностью управляемый, ведущий в отрасли инструмент для управления жизненным циклом машинного обучения. Он собирает и хранит ключевые метрики и параметры итераций машинного обучения, отслеживает запуски экспериментов и помогает выделить наиболее эффективные модели для дальнейшего развертывания.


Улучшенная наблюдаемость
Мы внесли значительные улучшения в наблюдаемость на новой платформе. Теперь у вас есть доступ в режиме реального времени к ключевым метрикам оборудования на панелях управления сервисами. Нет необходимости подключать внешние инструменты, такие как Grafana — все, что вам нужно, у вас под рукой.


Например, вы можете отслеживать параметры GPU, такие как использование GPU, использование памяти, использование буфера кадров, тактовую частоту SM, тактовую частоту памяти и т. д. Кроме того, мы разработали панель управления для нашего хранилища объектов, отображающую ключевые параметры контейнера, такие как запросы на чтение, запросы на изменение, трафик, количество объектов, пространство по типу объекта и общий размер контейнера.

Более интуитивный пользовательский интерфейс
Наши изменения пользовательского интерфейса отражают фокус на том, что важно. Мы реструктурировали облачные сущности в новой консоли, чтобы сделать общий опыт более плавным и интуитивно понятным, с меньшим количеством отвлекающих факторов и щелчков, необходимых для выполнения задач.

Кроме того, мы добавили быстрый доступ к поддержке и документации, что позволяет нашим пользователям тратить меньше времени на настройку сервиса и устранение неполадок.

Самообслуживаемое облако GPU для энтузиастов ИИ
В Nebius мы создаем облачную платформу будущего для всех. Мы понимаем, насколько раздражающими могут быть списки ожидания и ограниченная доступность GPU — они могут нарушить дорожные карты продукта, производственную динамику и ожидания заинтересованных сторон.

Наша цель — демократизировать доступ к современным графическим процессорам для всех энтузиастов ИИ и МО, независимо от размера компании или отрасли. Благодаря нашей внутренней команде LLM R&D, индивидуальному проектированию оборудования серверов и стоек, глубокому инженерному опыту и прочным партнерским отношениям с поставщиками мы создали уникальный подход к инфраструктуре графических процессоров с самообслуживанием. Теперь вы можете войти в систему и получить более быстрый доступ к графическим процессорам с минимальными обязательствами, сокращая время получения ценности и усиливая конкурентное преимущество ваших усилий в области ИИ.

Nebius утроит мощность ЦОДа в Финляндии



В финском ЦОДе будут развернуты графические процессоры Nvidia H200 Tensor Core, доступ к которым клиенты должны получить с ноября 2024 года. С их запуском Nebius станет одним из первых европейских операторов, представивших решения на базе этой платформы на рынке.

В дата-центре в Мянтсяля используется свободное воздушное охлаждение (free cooling), а также система рекуперации выделяемого тепла для отопления местных домов. В настоящее время она ежегодно рекуперирует около 20 000 МВт∙ч энергии. Предполагается, что расширение дата-центра еще больше повысит эффективность системы.

Расширение финского ЦОДа является частью более широкой программы, в рамках которой компания к середине 2025 года инвестирует свыше $1 млрд в ИИ-инфраструктуру в Европе, включая строительство по ее заказу новых центров обработки данных и использование услуг colocation, а также недавно аносированный запуск кластера GPU в дата-центре Equinix в Париже. Отмечается, что парижский кластер станет первым объектом, который оборудован исключительно серверами, разработанными Nebius, — по заявлению компании, она больше не использует сторонние серверы и стойки. Первые клиентские рабочие нагрузки ЦОД в Париже получит уже в ноябре 2024 года.

Сегодня мы запускаем свой первый продукт: Inference Service



Мы рады представить Nebius AI Studio — нашу новейшую платформу, призванную упростить и ускорить процесс разработки искусственного интеллекта.

Сегодня мы запускаем свой первый продукт: Inference Service. Он предоставляет конечные точки для самых популярных моделей ИИ, закладывая основу для ваших потребностей в разработке ИИ.

Основные преимущества сервиса вывода
Используйте передовые модели с открытым исходным кодом
Получите доступ к тщательно подобранному выбору высокопроизводительных моделей ИИ, таких как Meta Llama-3.1 и Mistral, без необходимости в обширных знаниях MLOps. Независимо от того, создаете ли вы чат-ботов, генераторы контента или инновационные решения на основе ИИ, эти модели обеспечивают прочную основу для воплощения ваших идей в жизнь.

Оптимизируйте производительность и контролируйте затраты
Достигните сверхнизкой задержки с помощью нашего высокооптимизированного конвейера обслуживания, обеспечивающего быстрые ответы по всем направлениям. Наши гибкие варианты ценообразования позволяют вам выбирать между быстрыми и базовыми вкусами, так что вы можете сбалансировать скорость и экономию в зависимости от требований вашего проекта — вы платите только за то, что используете.

Наслаждайтесь удобным и бесперебойным использованием
Начните тестирование, сравнение и развертывание моделей ИИ без усилий с помощью нашей интуитивно понятной игровой площадки — для начала не требуется кодирование. Когда вы будете готовы интегрировать ИИ в свои приложения, наш знакомый API сделает процесс простым, минимизируя время и усилия по разработке.

nebius.ai/studio/inference
studio.nebius.ai/