Мы запускаем новую платформу Nebius, созданную с нуля

Nebius Cloud
19 октября 2024, 08:49

Мы разработали новую версию платформы Nebius, которая, как мы считаем, будет служить вашим потребностям еще лучше. Она уже тестируется нашей внутренней командой LLM R&D и рядом клиентов. Теперь мы выпускаем ее для всех.

Когда мы впервые запустили Nebius, мы начали с использования того, чему научились при создании общедоступного облака, что помогло нам быстро приступить к работе. Теперь мы видим лучшие способы делать вещи, поэтому мы создали совершенно новую, эффективную и удобную для пользователя облачную платформу ИИ.

Наша новая платформа отличается более быстрым бэкэндом хранилища, поддержкой новых графических процессоров и наших новейших услуг машинного обучения, лучшей наблюдаемостью и более интуитивным пользовательским интерфейсом. С сильным акцентом на потребности ИИ, она предоставляет энтузиастам и практикам машинного обучения надежную, функциональную среду для их амбициозных инициатив. Кстати, мы иногда называем ее Newbius, новый Nebius, вы знаете.

Более быстрое хранилище для лучшей производительности
Хранилище имеет решающее значение — особенно для обучения машинному обучению. Для лучшей поддержки рабочих нагрузок ИИ мы внесли технические изменения и низкоуровневые обновления в наше файловое хранилище, увеличив производительность до 100 Гбит/с и 1 млн IOPS для агрегированных операций чтения. Вот что изменилось:

Мы увеличили пропускную способность файловой системы, устранив архитектурные узкие места в ее внутренней структуре.

Наше файловое хранилище теперь имеет более высокую пропускную способность чтения и более низкую задержку благодаря расширению минимального размера фрагмента данных. Эти улучшения сокращают IO на CPU, освобождая вычислительные ресурсы.

Мы переработали способ передачи файлов и их метаданных в хранилище файлов, ускорив его за счет параллельной загрузки.

Оптимизированные настройки теперь позволяют быстрее работать с Pytorch Dataloader.

Эти изменения обеспечивают бесперебойную потоковую передачу данных во время обучения модели и предотвращают сбои при сохранении контрольных точек, загрузке кода модели или совместном использовании весов модели между узлами кластера.

Новые графические процессоры, новые возможности
Новая платформа позволяет получить доступ к графическим процессорам NVIDIA H200 Tensor Core, которые в настоящее время поступают в наши серверные стойки. Оставайтесь с нами, чтобы узнать больше об этих предложениях.

Мы также внедрили несколько сетевых изменений, определяющих, как наше облако взаимодействует с нашими физическими объектами, что открывает путь для плавной интеграции новых центров обработки данных в нашу инфраструктуру.

Более легкий доступ к услугам МО
Недавно мы запустили два новых управляемых сервиса для улучшения операций ML наших клиентов: Managed Spark™ и Managed MLflow. Оба теперь доступны на нашей новой консоли.

Managed Service for Apache Spark — это полностью управляемый движок обработки данных, разработанный для упрощения и ускорения инженерии данных и рабочих нагрузок машинного обучения. Apache Spark славится своей скоростью и простотой использования в обработке больших данных.

Managed Service for MLflow — это полностью управляемый, ведущий в отрасли инструмент для управления жизненным циклом машинного обучения. Он собирает и хранит ключевые метрики и параметры итераций машинного обучения, отслеживает запуски экспериментов и помогает выделить наиболее эффективные модели для дальнейшего развертывания.

Улучшенная наблюдаемость
Мы внесли значительные улучшения в наблюдаемость на новой платформе. Теперь у вас есть доступ в режиме реального времени к ключевым метрикам оборудования на панелях управления сервисами. Нет необходимости подключать внешние инструменты, такие как Grafana — все, что вам нужно, у вас под рукой.

Например, вы можете отслеживать параметры GPU, такие как использование GPU, использование памяти, использование буфера кадров, тактовую частоту SM, тактовую частоту памяти и т. д. Кроме того, мы разработали панель управления для нашего хранилища объектов, отображающую ключевые параметры контейнера, такие как запросы на чтение, запросы на изменение, трафик, количество объектов, пространство по типу объекта и общий размер контейнера.

Более интуитивный пользовательский интерфейс
Наши изменения пользовательского интерфейса отражают фокус на том, что важно. Мы реструктурировали облачные сущности в новой консоли, чтобы сделать общий опыт более плавным и интуитивно понятным, с меньшим количеством отвлекающих факторов и щелчков, необходимых для выполнения задач.

Кроме того, мы добавили быстрый доступ к поддержке и документации, что позволяет нашим пользователям тратить меньше времени на настройку сервиса и устранение неполадок.

Самообслуживаемое облако GPU для энтузиастов ИИ
В Nebius мы создаем облачную платформу будущего для всех. Мы понимаем, насколько раздражающими могут быть списки ожидания и ограниченная доступность GPU — они могут нарушить дорожные карты продукта, производственную динамику и ожидания заинтересованных сторон.

Наша цель — демократизировать доступ к современным графическим процессорам для всех энтузиастов ИИ и МО, независимо от размера компании или отрасли. Благодаря нашей внутренней команде LLM R&D, индивидуальному проектированию оборудования серверов и стоек, глубокому инженерному опыту и прочным партнерским отношениям с поставщиками мы создали уникальный подход к инфраструктуре графических процессоров с самообслуживанием. Теперь вы можете войти в систему и получить более быстрый доступ к графическим процессорам с минимальными обязательствами, сокращая время получения ценности и усиливая конкурентное преимущество ваших усилий в области ИИ.

Мы запускаем новую платформу Nebius, созданную с нуля

0 комментариев

Оставить комментарий