Реализовано в четвертом квартале: обновления нашего облака GPU



После завершения полной переписывания нашего облака с нуля в октябре мы начали улучшать фундамент, который мы вывели на рынок. Функции и инструменты, которые мы представили с тех пор, охватывают весь наш спектр облачных сервисов, от Compute Cloud до управляемых решений MLOps.

Вычислительное облако
  • Добавлена ​​конфигурация платформы AMD (cpu-d3).
  • В консоль добавлены новые панели мониторинга: ЦП, ГП, ОЗУ, метрики NVLink, метрики InfiniBand, метрики Ethernet.
  • Выбор типа публичного IP-адреса (статический или динамический) теперь доступен при создании виртуальной машины в GUI, CLI или Terraform.

Кластерное управление
Оператор

  • Включено sshdна рабочих узлах для прямого, безопасного доступа и упрощенного устранения неполадок.
  • Реализована поддержка enroot без необходимости наличия прав root, что обеспечивает более гибкие и безопасные контейнеризированные рабочие процессы.
  • Добавлена dockerd​​поддержка управления средой выполнения контейнера.
  • Интегрировано apparmorдля улучшения профилей безопасности и изоляции рабочей нагрузки.
  • Внедрены разделы Slurm для логического разделения ресурсов и повышения эффективности планирования.
  • Запущен API Slurm REST, позволяющий осуществлять программное управление кластерами, отправку заданий и запрашивать состояния кластеров.
  • Поддерживаются типы кластеров, состоящие только из ЦП и только из ГП, что позволяет пользователям точно адаптировать свою инфраструктуру к требованиям рабочей нагрузки.

Управляемый сервис для Kubernetes
  • Добавлена ​​поддержка балансировщика нагрузки для предоставления сервисам доступа в Интернет и внутренние сети.
  • В консоль добавлены новые панели мониторинга: ЦП, ГП, ОЗУ, метрики NVLink, метрики InfiniBand, метрики Ethernet.
  • Запущен автомасштабатор узлов для динамического добавления или удаления узлов в зависимости от потребностей в ресурсах.
  • Внедрена интеграция с нашей службой реестра контейнеров для бесперебойного управления образами.
  • Включена высокая доступность для кластеров по умолчанию, что обеспечивает избыточную плоскость управления без дополнительных затрат.
  • Добавлена ​​поддержка блочных томов ReadWriteOnce с CSI через блочное хранилище в режиме предварительного просмотра. Обратитесь в службу поддержки или к своему архитектору облачных решений, чтобы начать их использовать.
  • Добавлена ​​поддержка настройки кластеров в пользовательских подсетях, что позволяет кластерам Kubernetes подключаться к частному адресному пространству клиента через VPN.

Реестр контейнеров

Хранилище данных
Общая файловая система

  • Запущена функция изменения размера файловой системы. Производительность файловой системы будет увеличиваться на каждые 4 ТБ размера.
  • Добавлена ​​поддержка получения доступных платформ и предустановок через API и CLI.
  • Добавлена ​​возможность изменения размера файловых систем и дисков без необходимости их переустановки.

Хранение объектов
  • В консоль добавлены показатели производительности и потребления.

Управляемый сервис для PostgreSQL
  • Добавлены показатели производительности в консоль.
  • Добавлена ​​поддержка Run:ai.
  • Запущены частные конечные точки кластера (доступны только из VPC пользователя).
  • Добавлена ​​возможность включать и отключать конечные точки публичного кластера.
  • Добавлены настройки размера пула и некоторые второстепенные настройки, связанные с параметрами кластера PostgreSQL.
  • Добавлена ​​возможность обновления созданного кластера путем изменения параметров кластера (количество хостов, количество ЦП, объем памяти), параметров PostgreSQL (пароль, настройки автоочистки и т. д.) или настроек пулера.

Услуги и приложения MLOps
Управляемая услуга для MLflow

  • Теперь поддерживаются частные и публичные конечные точки.
  • Добавлены журналы MLflow в веб-консоль.
  • В веб-консоль добавлены показатели производительности MLflow.

Возможности облачной платформы
Сеть

  • Добавлено «количество доступных публичных IP-адресов» в качестве публичной квоты в консоли.
  • Теперь доступна возможность изменения диапазона IP-адресов для частной сети.
  • Решение Wireguard VPN было добавлено для безопасного удаленного доступа.
  • Управление идентификацией и доступом
  • Добавлена ​​аутентификация GitHub в консоль.
  • Теперь у клиентов есть возможность настраивать собственные федерации с помощью протокола SAML2 через API.

API
  • Выпустили API-репозиторий github.com/nebius/api
  • Go SDK и Python SDK выпущены в режиме предварительного просмотра. Пожалуйста, свяжитесь со службой поддержки или архитектором облачных решений, чтобы начать их использовать.
Страница статуса
  • Теперь вы можете подписаться на инциденты на страница статуса status.nebius.com

Небиус AI Студия
  • В настоящее время в нашем портфолио LLM более 30 моделей.
  • Теперь платформа поддерживает увеличенные лимиты скорости — более 100 млн токенов в минуту и ​​более.
  • Добавлена ​​новейшая модель Llama-3.3-70B-Instruct.
  • Добавлены модели стражи.
  • Добавлены специализированные модели Med42 и Llama3-OpenBioLLM-8B.
  • Теперь также доступны модели Vision.
  • LoRA доступен в режиме предварительного просмотра.

nebius.com
studio.nebius.ai/playground
console.eu.nebius.com
Выделенные серверы OVH
Выделенные серверы Hetzner

0 комментариев

Оставить комментарий