Рейтинг
0.00

Nebius Cloud

1 читатель, 37 топиков

Nebius публикует финансовые результаты за третий квартал 2025 года



Амстердам, 11 ноября 2025 г. — Nebius Group NV (NASDAQ: NBIS), ведущая компания в области инфраструктуры искусственного интеллекта, сегодня объявила свои неаудированные финансовые результаты за третий квартал, закончившийся 30 сентября 2025 г.

Сегодня компания также опубликовала ежеквартальное письмо основателя и генерального директора Аркадия Воложа акционерам, доступное на веб-сайте по связям с инвесторами по адресу nebius.com/investor-hub

Сегодня компания Nebius также объявила о новом соглашении на поставку инфраструктуры ИИ для Meta стоимостью около 3 миллиардов долларов в течение 5 лет.

Компания реализует программу привлечения акционерного капитала на рынке (ATM) в объёме до 25 миллионов акций класса A и планирует подать дополнение к проспекту эмиссии по этой программе 12 ноября 2025 года. Nebius будет регулярно оценивать программу с учётом своих потребностей в капитале. Программа позволяет Компании получать эффективный и постоянный доступ к акционерному капиталу; однако она будет оставаться чувствительной к разводнению, поскольку Компания готовится к финансированию будущих возможностей роста.

Руководство проведёт веб-трансляцию, посвящённую итогам года, сегодня в 8:00 (EDT) / 5:00 (PDT) / 14:00 (CET). Чтобы зарегистрироваться или прослушать аудиотрансляцию, посетите сайт nebius.com/investor-hub

Nebius AI Cloud приходит в Великобританию с одним из первых в стране развертываний передовой инфраструктуры NVIDIA AI



Лондон, 6 ноября 2025 г. — Компания Nebius (NASDAQ: NBIS) сегодня представила свое первое развертывание инфраструктуры ИИ NVIDIA Blackwell Ultra в Великобритании, предоставляя британским клиентам мощь суперкомпьютера и простоту гипермасштабирования Nebius AI Cloud за счет локально развернутых специализированных вычислений на базе ИИ.

Благодаря графическим процессорам NVIDIA Blackwell Ultra и сетевому интерфейсу NVIDIA Quantum-X800 InfiniBand, это развёртывание обеспечивает беспрецедентную производительность для генеративного ИИ и разработки будущих базовых моделей. Это очередной этап глобального развития Nebius после аналогичных развёртываний высокопроизводительной инфраструктуры ИИ в Европе, США и Израиле.

Запуск расширяет внутренние вычислительные мощности Великобритании, поддерживая цели, изложенные в Плане действий правительства Великобритании по возможностям развития ИИ, и позволяя британским предприятиям, исследователям и государственным службам создавать и развертывать ИИ в масштабах.

Аркадий Волож основатель и генеральный директор Nebius, сказал:
Этот запуск — важная веха для Nebius и растущей экосистемы искусственного интеллекта в Великобритании. Объединяя нашу облачную инфраструктуру с новейшими технологиями NVIDIA, мы предоставляем организациям по всей Великобритании возможность обучать, развертывать и масштабировать модели и приложения искусственного интеллекта быстрее, безопаснее и экологичнее, чем когда-либо

Энтони Хиллс, директор корпоративного бизнеса в Великобритании и Ирландии в NVIDIA, сказал:
Промышленное будущее Великобритании меняется благодаря ИИ. Благодаря Nebius, внедряющему передовые инфраструктуры ИИ на базе платформы ускоренных вычислений NVIDIA, мы помогаем раскрыть потенциал британских данных для стимулирования инноваций, экономического роста и укрепления национальной устойчивости

Инновационные компании смогут воспользоваться потенциалом Nebius в Великобритании для разработки новых передовых моделей и решений в области ИИ. Nebius поддерживает разработчиков во всей экосистеме ИИ в Великобритании: от стартапов до предприятий, от академических кругов до Национальной службы здравоохранения, а также в ключевых отраслях, включая здравоохранение и фармацевтику, науки о жизни, финтех, робототехнику и физический ИИ.

Одним из первых партнеров по внедрению решения стала компания Basecamp Research, которая использует ИИ для решения нерешенных передовых задач в отрасли наук о жизни.

Соучредитель Basecamp Research Оливер Винс сказал:
Для решения беспрецедентных задач, таких как разработка программируемых лекарств, требуется инфраструктура, способная обрабатывать огромные наборы данных со всего мира, сохраняя при этом скорость и надежность, необходимые для расширения научных горизонтов. Инфраструктура Nebius обеспечивает необходимый нам масштаб и производительность; её наличие здесь, в Великобритании, означает, что мы сохраняем больший контроль над нашими данными и можем конкурировать на переднем крае наук о жизни, основанных на ИИ

Prima Mente, компания в сфере нейронауки с использованием искусственного интеллекта, использует инфраструктуру Nebius для разработки моделей, которые позволяют разрабатывать новые методы лечения заболеваний мозга, включая болезнь Альцгеймера и Паркинсона.

Основатель и генеральный директор Prima Mente Рави Соланки сказал:
Обучение многомиллиардных параметров фундаментальных моделей на биологических данных требует инфраструктуры, способной быстро масштабироваться без прерывания рабочего процесса. Nebius позволяет нам проводить десятки экспериментов одновременно, ускоряя нашу миссию по расшифровке механизмов развития болезней Альцгеймера и Паркинсона. Наличие такой производительности на местном уровне означает, что мы можем быстрее предоставлять более качественную диагностику пациентам по всей Великобритании.

Развернутая в Великобритании система Nebius, расположенная на современном объекте в районе Лондона, объединяет передовые энергоэффективные технологии охлаждения, сетевое подключение NVIDIA Quantum-X800 InfiniBand с низкой задержкой и надежную локальную систему генерации электроэнергии. Она оснащена графическими процессорами NVIDIA Blackwell Ultra, обеспечивающими беспрецедентную производительность для генеративного ИИ и разработки будущих моделей. Сотрудничество Nebius и NVIDIA обеспечивает полную интеграцию с программным пакетом NVIDIA AI Enterprise для поддержки масштабируемости и эффективности корпоративного уровня.

Nebius AI Cloud 3.0 «Aether», новейшая версия платформы Nebius, разработана для удовлетворения потребностей в ИИ нового поколения в таких областях, как здравоохранение, финансы, науки о жизни, корпоративный сектор и государственный сектор. Благодаря функциям корпоративного уровня, включая сертификацию SOC2 Type II, включая HIPAA, сквозное шифрование и полное соответствие стандартам защиты данных GDPR и CCPA, Aether обеспечивает организациям доверие, контроль и простоту, необходимые для выполнения критически важных задач ИИ в производственной среде и в больших масштабах.

Являясь партнером NVIDIA Cloud (NCP) по эталонной платформе, Nebius предоставляет услуги с ускорением ИИ, основанные на эталонной архитектуре NCP, а также обеспечивает стратегическую ценность и региональное влияние благодаря тесному сотрудничеству с NVIDIA в области поддержки и внедрения. Nebius также входит в число первых NCP, получивших Exemplar Cloud для учебных рабочих нагрузок на графических процессорах NVIDIA Hopper, продемонстрировав производительность рабочих нагрузок в пределах 95% от эталонной архитектуры NVIDIA.

Nebius запускает Nebius Token Factory для масштабной реализации вывода ИИ в производственных масштабах



Амстердам, 5 ноября 2025 г. — Сегодня компания Nebius представила Nebius Token Factory — платформу производственного вывода, которая позволяет компаниям, работающим в сфере ИИ, и цифровым предприятиям развертывать и оптимизировать модели с открытым исходным кодом и пользовательские модели в больших масштабах с надежностью и контролем корпоративного уровня.

Nebius Token Factory, построенная на комплексной ИИ-инфраструктуре Nebius, объединяет высокопроизводительный инференс, пост-обучение и детальное управление доступом в единую управляемую платформу. Она поддерживает все основные открытые модели, включая DeepSeek, GPT-OSS от OpenAI, Llama, NVIDIA Nemotron и Qwen, а также предоставляет клиентам возможность размещать собственные модели.

По мере того, как ИИ переходит от экспериментального этапа к производству, использование закрытых моделей может создавать узкие места при масштабировании. Модели с открытым исходным кодом и пользовательские модели могут устранить эти препятствия, открывая путь к инновациям и улучшая экономические показатели, но управление ими и их обеспечение безопасности в производстве остаются сложными и ресурсоёмкими для большинства команд.

Nebius Token Factory позволяет командам реализовать эти преимущества, сочетая гибкость открытых моделей с управляемостью, производительностью и экономичностью, необходимыми для масштабного запуска ИИ. Платформа оптимизирована для повышения эффективности, обеспечивая задержку менее секунды, автоматическое масштабирование пропускной способности и 99,9% времени безотказной работы, даже при рабочих нагрузках, превышающих сотни миллионов запросов в минуту.

У каждой команды свои уникальные требования, и им нужна скорость, надёжность и экономичность без лишних усилий. Мы создали Nebius Token Factory не только для обслуживания моделей, но и для того, чтобы помочь клиентам решать реальные задачи и масштабировать разработку, оптимизируя конвейеры вывода и превращая открытые модели в готовые к использованию системы
сказал Роман Чернин, соучредитель и директор по развитию бизнеса Nebius

Как клиенты и сообщество используют Nebius Token Factory
Первые пользователи Nebius Token Factory используют платформу для поддержки широкого спектра решений на основе ИИ: от интеллектуальных чат-ботов и помощников-кодировщиков до высокопроизводительного поиска, генерации дополнения (RAG), анализа документов и автоматизированной поддержки клиентов.

Компания Prosus, стоящая за некоторыми из ведущих мировых брендов в сфере образа жизни и электронной коммерции, добилась сокращения расходов в 26 раз по сравнению с фирменными моделями.

Мы быстро работаем, быстро тестируем и итерируем, а гибкость, продукты и оперативная реакция Nebius Token Factory позволили нам поддерживать этот темп на протяжении всего производственного процесса. Используя выделенные конечные точки Nebius Token Factory, Prosus смогла обеспечить гарантированную производительность и изоляцию. Внедрение функции автоматического масштабирования стало переломным моментом, позволив нам обрабатывать огромные рабочие нагрузки — до 200 миллиардов токенов в день — без ручного вмешательства
сказал Зюлькюф Генч, директор по ИИ в Prosus

Ведущая ИИ-видеоплатформа Higgsfield AI использует Nebius для вывода по запросу и автоматического масштабирования.

Масштабный вывод с хорошей экономической эффективностью требует эффективных возможностей масштабирования по запросу и автоматического масштабирования. Nebius был единственным поставщиком, который удовлетворил нашим требованиям, сократив накладные расходы, упростив управление и позволив нам быстрее и экономичнее внедрять ИИ в производство
сказал Алекс Машрабов, основатель и генеральный директор Higgsfield AI.

Лидеры в области открытого исходного кода, такие как Hugging Face, также сотрудничают с Nebius с целью улучшения доступа и масштабируемости для разработчиков.

Hugging Face и Nebius разделяют общую миссию: сделать открытый ИИ доступным и масштабируемым. Благодаря сотрудничеству с Nebius Token Factory мы смогли обеспечить более быстрый и надёжный вывод для разработчиков, работающих с крупными моделями с открытым исходным кодом
заявил Жюльен Шомон, технический директор Hugging Face.

Полнофункциональная инфраструктура ИИ как основа
Nebius Token Factory построен на базе Nebius AI Cloud 3.0 «Aether». Это обеспечивает безопасность корпоративного уровня, проактивный мониторинг и стабильную производительность, подтвержденную бенчмарками, включая MLPerf Inference. Объединяя полнофункциональную инфраструктуру Nebius с оптимизированным для вывода технологическим стеком, Nebius Token Factory помогает клиентам быстрее масштабировать свои ИИ-приложения и решения.

В SemiAnalysis мы отслеживаем совокупную стоимость владения для каждого игрока GPU Cloud. Nebius — единственный NeoCloud, использующий шасси ODM, что обеспечивает значительное снижение совокупной стоимости владения. Мы рады видеть, что их новая платформа Inference разработана с учётом компромиссного решения: стоимость, скорость вывода на пользователя и качество модели
сказал Дилан Патель, главный аналитик SemiAnalysis

Проекты ИИ часто масштабируются быстрее, чем команды, которые их создают. Nebius Token Factory оптимизирует жизненный цикл после обучения, превращая весовые коэффициенты моделей с открытым исходным кодом в оптимизированные, готовые к использованию системы с гарантированной производительностью и прозрачной стоимостью за токен. Интегрированные конвейеры тонкой настройки и дистилляции позволяют командам адаптировать большие открытые модели к собственным данным, одновременно сокращая затраты на вывод и задержки до 70%.

Оптимизированные модели можно мгновенно развернуть на конечных точках производства, без ручной настройки инфраструктуры. Такой подход позволяет разработчикам ИИ и предприятиям быстрее выполнять итерации, предсказуемо управлять затратами и поддерживать полную прозрачность каждого обслуживаемого токена.

Token Factory представляет Teams и Access Management, систему единого входа (SSO), разделение проектов и корпоративное выставление счетов для упрощения совместной работы и обеспечения соответствия требованиям. Администраторы могут настраивать детализированные роли, применять минимальные привилегии доступа и вести чёткий аудит всех развёртываний, от ранних экспериментов до критически важных рабочих нагрузок.

Фабрика токенов Nebius — ключевые особенности
  • Выделенные конечные точки с гарантированной производительностью и изоляцией, с SLA 99,9%, предсказуемой задержкой и автоматическим масштабированием пропускной способности
  • Вывод с нулевым сохранением данных в центрах обработки данных ЕС или США, поддерживающий строгие требования к размещению данных
  • Сертификаты безопасности, включая SOC 2 Type II, включая сертификаты HIPAA, ISO 27001 и ISO 27799
  • Комплексные возможности тонкой настройки, поддерживающие как LoRA, так и полное обучение модели, с простым развертыванием и размещением в один клик.
  • Поддержка более 40 моделей с открытым исходным кодом, включая новейшие Deep Seek, Llama, OpenAI и Qwen, оптимизированные для последних чипов
  • Управление по замыслу с управлением командами и доступом, единым входом, унифицированным выставлением счетов и удобными для аудита рабочими пространствами
  • Совместимые с OpenAI API для беспроблемной миграции с собственных конечных точек

Доступность
Nebius Token Factory — это следующее поколение Nebius AI Studio, модернизированное для корпоративного использования и полного управления жизненным циклом моделей. Оно доступно уже сегодня и поддерживает более 60 моделей с открытым исходным кодом (текст, код и машинное обучение). Текущие пользователи AI Studio автоматически перейдут на Token Factory.

Чтобы начать, посетите tokenfactory.nebius.com

Avride получает стратегические инвестиции и другие обязательства на сумму до 375 миллионов долларов при поддержке Uber и Nebius



Остин, Техас, 22 октября 2025 г. — Компания Avride, ведущий разработчик технологий автономного вождения, получила стратегические инвестиции и коммерческие обязательства от Uber Technologies, Inc. и Nebius Group.

Общая сумма сделки между Uber и Nebius составляет до 375 миллионов долларов. Она является продолжением коммерческого партнерства Avride с Uber, заключенного после подписания многолетнего стратегического соглашения в 2024 году. Запуск сервиса роботакси Avride на платформе Uber запланирован в Далласе к концу 2025 года. Роботы-доставщики Avride уже выполняют заказы через платформу Uber Eats для сотен ресторанов в Джерси-Сити, Остине и Далласе. Новое финансирование позволит Avride ускорить рост своего парка, поддержать разработку продуктов на основе искусственного интеллекта и расширить свое предложение на новые регионы.

Аркадий Волож, основатель и генеральный директор Nebius Group, сказал:
«Мы рады приветствовать Uber в качестве стратегического инвестора, который разделяет видение Avride и позволит компании двигаться дальше и быстрее в области пионерских разработок в области автономного транспорта на базе искусственного интеллекта».

Сарфраз Маредиа, глобальный руководитель отдела автономной мобильности и доставки Uber, сказал:
«Мы рады дальнейшему углублению нашего партнерства с Avride и с нетерпением ждем возможности представить их впечатляющие технологии автономного вождения большему числу людей на новых рынках».

Дмитрий Полищук, генеральный директор Avride, сказал:
«У нас в Avride есть чёткое видение и чёткий план, как сделать беспилотный транспорт неотъемлемой частью повседневной жизни. Мы очень рады, что у нас есть партнёры мирового уровня, такие как Uber, которые разделяют это видение и продолжают нас поддерживать».

Nebius представляет NVIDIA Blackwell в Израиле, где реализуется одно из первых в стране развертываний инфраструктуры искусственного интеллекта



Амстердам, 20 октября 2025 г. — Сегодня компания Nebius представила Nebius AI Cloud в своем новом центре обработки данных ИИ в Израиле, современном объекте, в котором размещено одно из первых в стране общедоступных развертываний графических процессоров NVIDIA Blackwell.

Развертывание позволит местным стартапам, технологическим компаниям и исследовательским институтам получить доступ к передовым вычислительным ресурсам для обучения, тонкой настройки и вывода данных. Оно укрепит цифровую инфраструктуру Израиля благодаря одному из крупнейших в стране облачных развертываний GPU и первому на базе архитектуры NVIDIA Blackwell, включающему 4000 графических процессоров NVIDIA HGX B200, сетевое решение NVIDIA Quantum InfiniBand и доступ к программному стеку NVIDIA AI Enterprise, включая микросервисы NVIDIA NIM и инструменты жизненного цикла агентов NeMo AI.

Развертывание, расположенное на базе колокационного оборудования в Модиине, является частью глобального развертывания ИИ-инфраструктуры Nebius, последовавшего за аналогичными развертываниями в Европе и США. Новая площадка объединяет передовую аппаратную и программную инфраструктуру, включая передовые системы охлаждения, управления энергопотреблением и механизмы контроля данных, разработанные для интенсивных рабочих нагрузок ИИ.

Роман Чернин, соучредитель и главный коммерческий директор Nebius, сказал:
Мы рады сотрудничеству с NVIDIA над созданием вычислительной инфраструктуры, которая будет поддерживать технологическую экосистему Израиля. Израиль зарекомендовал себя как важный центр разработки и внедрения ИИ, особенно в таких областях, как здравоохранение, агротехнологии и кибербезопасность. Наше присутствие здесь позволяет нам тесно сотрудничать с предпринимателями, стартапами, исследователями и лидерами отрасли, которые являются движущей силой этих достижений».

Нати Амстердам, директор NVIDIA в Израиле, сказала:
Запуск Nebius крупнейшего в Израиле облака искусственного интеллекта на базе Blackwell знаменует собой начало развития инфраструктуры искусственного интеллекта в стране. Благодаря суверенному доступу к передовым вычислительным технологиям, сетевым технологиям и программному обеспечению, израильские стартапы, предприятия и исследователи смогут внедрять инновации, внедрять и масштабировать следующее поколение агентного и физического ИИ, укрепляя позиции страны как мирового лидера в области ИИ.

Nebius — партнер NVIDIA по облачным технологиям (NCP) в рамках референсной платформы, предоставляющий услуги с ускорением ИИ на основе референсной архитектуры NCP и обеспечивающий стратегическую ценность и региональное влияние благодаря тесному сотрудничеству с NVIDIA в области поддержки и внедрения. Компания со штаб-квартирой в Амстердаме также входит в число первых NCP, получивших сертификат Exemplar Cloud для учебных рабочих нагрузок на базе NVIDIA H100, продемонстрировав производительность рабочих нагрузок в пределах 95% от референсной архитектуры NVIDIA. Платформа Nebius AI Cloud получила сертификацию SOC2 Type II, включая HIPAA, и обеспечивает сквозное шифрование, а также полное соответствие стандартам защиты данных GDPR и CCPA.

Nebius представляет Nebius AI Cloud 3.0 «Aether», обеспечивающую безопасность корпоративного уровня, соответствие требованиям и контроль для масштабного развертывания ИИ



  • Такие сертификаты, как SOC 2 Type II, включая HIPAA, и ISO 27001, позволяют развертывать ИИ в строго регулируемых контекстах, включая здравоохранение, финансовые услуги и государственное управление.
  • Расширенные возможности наблюдения и управления идентификацией и доступом (IAM) обеспечивают более детальный контроль, а оптимизированные рабочие процессы разработчиков ускоряют время разработки благодаря упрощенному пользовательскому интерфейсу и каталогу приложений.
  • Устойчивость платформы дополнительно усилена за счет проактивного мониторинга работоспособности системы, самовосстанавливающейся инфраструктуры и существенного повышения производительности систем хранения данных.

Амстердам, 16 октября 2025 г. — Сегодня компания Nebius анонсировала Nebius AI Cloud 3.0 «Aether», новейшую версию Nebius AI Cloud, предоставляющую корпоративные функции, которые обеспечивают организациям доверие, контроль и простоту, необходимые для выполнения важнейших рабочих нагрузок ИИ в производственной среде и в больших масштабах.

По мере того, как рабочие нагрузки ИИ смещаются с обучения на вывод данных в масштабе, организациям необходима комплексная платформа разработки, которая ускоряет получение результата. Однако существующая облачная инфраструктура часто оказывается неэффективной: длительные закупки задерживают развертывание, разрозненность инструментов замедляет разработку, а нестабильная производительность в разных регионах создаёт сложности. Модели безопасности, разработанные для универсальных рабочих нагрузок, не могут соответствовать требованиям нормативных актов, специфичным для ИИ, а управление конвейерами данных, контролем доступа и ресурсами графических процессоров создаёт узкие места.

С выпуском Aether облачное решение Nebius AI Cloud предоставляет всё необходимое для производственных ИИ-решений: независимую проверку сертификатов безопасности (SOC 2 Type II, включая HIPAA, ISO 27001, ISO 27799), а также соответствие принципам NIS2, DORA, ISO 27032 и ISO 27701; детальное управление с встроенной возможностью наблюдения, детализированным IAM и полной прозрачностью инфраструктуры; а также оптимизированные рабочие процессы разработки, ускоряющие развертывание. Эти возможности позволяют организациям здравоохранения, финансовых услуг, государственным органам и другим регулируемым организациям уверенно переносить рабочие нагрузки ИИ в производство.

Производительность и надежность остаются основополагающими. Nebius показал лидирующие результаты в бенчмарках MLPerf Inference v5.1 с системами NVIDIA GB200 NVL72 и NVIDIA HGX B200 и стал одним из первых облачных сервисов NVIDIA Exemplar Cloud, достигнув стандартов производительности NVIDIA для крупномасштабных учебных нагрузок на NVIDIA HGX H200. В версии Aether добавлен автоматизированный мониторинг работоспособности с упреждающим обнаружением проблем и значительно повышена производительность хранилища для обеспечения стабильности корпоративного уровня.

Nebius AI Cloud предоставляет предприятиям всё необходимое: производительность суперкомпьютеров, простоту использования на уровне гипермасштабирования, а также уровень доверия и управления, необходимые для промышленного применения ИИ. Aether доказывает, что корпоративный контроль и производительность разработчиков могут сосуществовать на одной платформе. Благодаря комплексным функциям безопасности и управления, а также постоянному акценту на удобстве разработчиков, мы предоставляем предприятиям инфраструктуру, необходимую для перехода от экспериментов с ИИ к критически важным для бизнеса решениям
заявил Роман Чернин, соучредитель и директор по развитию бизнеса Nebius

Nebius создает комплексную экосистему для ускорения внедрения искусственного интеллекта в компаниях. Партнерство с дистрибьюторами технологий, такими как TD SYNNEX, которая запустила свою ИИ-инфраструктуру как услугу в Северной Америке на базе Nebius AI Cloud, а также интеграция с такими платформами, как Anyscale, SkyPilot, Outerbounds, Saturn Cloud и Lightning AI, обеспечивают комплексные решения от закупок до развертывания.

Благодаря инфраструктуре, развернутой в США, Европе, Великобритании и на Ближнем Востоке, Nebius AI Cloud предлагает глобальные возможности обеспечения соответствия требованиям и локального размещения данных, отвечающие региональным требованиям. Благодаря раннему доступу к новейшим архитектурам графических процессоров, предприятия могут локально развертывать рабочие нагрузки ИИ с использованием единой платформы.

Компания Nebius проведёт презентацию Nebius AI Cloud 3.0 «Aether» с прямой сессией вопросов и ответов в среду, 5 ноября, в 18:00 по центральноевропейскому времени (полдень по восточному времени) и в 9:00 по тихоокеанскому времени. Для получения дополнительной информации, пожалуйста, зарегистрируйтесь здесь.

Nebius AI Cloud 3.0 «Aether» — краткий обзор
Безопасность и соответствие корпоративным стандартам
  • Сертификаты SOC 2 Type II, включая раздел HIPAA, и ISO 27001, подтвержденные независимыми аудиторами
  • Соответствие нормативным базам NIS2, DORA, ISO 27032, ISO 27701 и ISO 27799
  • Встроенный менеджер секретов для безопасного управления ключами API и учетными данным
и
Управление и контроль
  • Расширенный набор функций IAM с более детализированным управлением
  • Комплексный набор инструментов для наблюдения с возможностью поиска по журналам, гистограммами, сбором метрик и аудитом
Производительность разработчиков
  • Обновленный пользовательский интерфейс и навигация, которые лучше соответствуют рабочим процессам разработчиков AI ML
  • Поддержка создания виртуальных машин с предустановленными приложениями для быстрого развертывания рабочих нагрузок ИИ
  • Упрощенное распределение квот на GPU, CPU и память, а также выставление счетов
  • Расширенная поддержка экосистемы, включая интеграцию SkyPilot Server и Anyscale
Надежность и производительность
  • Автоматизированные активные и пассивные проверки работоспособности с автоматическим восстановлением узлов
  • Повышение производительности объектного и файлового хранилища (сторонние и собственные возможности)
  • NVIDIA Exemplar Cloud на NVIDIA HGX B200
  • Лидирующие результаты в тестах MLCommons MLPerf Inference v5.1 с системами NVIDIA GB200 NVL72 и NVIDIA HGX NVIDIA B200

Nebius объявляет о многомиллиардном соглашении с Microsoft по созданию инфраструктуры ИИ



Сделка позволит Nebius значительно активнее развивать облачный бизнес ИИ в 2026 году.
Амстердам, 8 сентября 2025 — Nebius Group NV (NASDAQ: NBIS) («Nebius» или «Компания»), ведущая компания в области инфраструктуры ИИ, сегодня объявила о соглашении на поставку инфраструктуры ИИ для Microsoft.

В рамках этого многолетнего соглашения компания Nebius будет предоставлять Microsoft выделенные мощности из своего нового центра обработки данных в Винеленде, штат Нью-Джерси, начиная с конца этого года.

Основной бизнес Nebius в сфере облачных технологий ИИ, обслуживающий клиентов от стартапов до крупных предприятий, демонстрирует исключительно высокие результаты. Мы также заявляли, что, помимо нашей основной деятельности, рассчитываем заключить значительные долгосрочные контракты с ведущими лабораториями ИИ и крупными технологическими компаниями. Я рад объявить о первом из этих контрактов, и я уверен, что их будет ещё больше. Экономическая выгода от сделки сама по себе привлекательна, но, что немаловажно, она также поможет нам ещё больше ускорить рост нашего бизнеса в сфере облачных технологий ИИ в 2026 году и в дальнейшем.
Аркадий Волож, основатель и генеральный директор Nebius

Компания Nebius рассчитывает финансировать капитальные затраты, связанные с контрактом, за счёт сочетания денежного потока от сделки и выпуска обеспеченных контрактом облигаций в ближайшей перспективе на условиях, благоприятствующих кредитному качеству контрагента. Компания также рассматривает ряд дополнительных вариантов финансирования, которые позволят обеспечить значительно более быстрый рост, чем изначально планировалось, и в надлежащее время проинформирует рынок о своей стратегии финансирования.

Более подробную информацию о контракте можно найти в форме 6-К, поданной сегодня компанией в Комиссию по ценным бумагам и биржам.

Отказоустойчивое обучение: как мы создаем надежные кластеры для распределенных рабочих нагрузок ИИ



Начиная работу над проектом, вы ожидаете, что он будет выполняться без сбоев. Это ожидание справедливо во многих областях, но особенно остро оно ощущается инженерами машинного обучения, которые запускают масштабные проекты по предобучению. Поддержание стабильной среды обучения критически важно для достижения результатов в области ИИ в срок и в рамках бюджета.

За последние несколько месяцев в Nebius мы добились значительного прогресса в повышении надежности кластера, обеспечив отказоустойчивое обучение для всех наших клиентов. Эти улучшения привели к 169 800 часов работы графических процессоров или 56,6 часов стабильной работы для производственного кластера из 3000 графических процессоров, как записал один из наших клиентов.

Подписи, ведущая компания в области видеонаблюдения на основе ИИ, подчеркивает стабильность кластеров Nebius и показывает, насколько они важны для прогресса в разработке ИИ.
Благодаря Nebius наши долгосрочные задачи по обучению стали более предсказуемыми и эффективными. Повышение автоматизации обработки неисправностей и низкий уровень инцидентов позволили нам уделять больше времени отработке новых моделей, а не управлению инфраструктурой
Гаурав Мисра, соучредитель и генеральный директор Captions

В этой статье мы расскажем вам об основных концепциях и показателях, определяющих надежность кластеров ИИ, а также расскажем о методах, которые используют инженеры Nebius для обучения наших клиентов отказоустойчивости.

Проблема запуска учебных заданий на многоузловом кластере
Распределённое обучение ИИ подразумевает запуск модели на нескольких узлах, каждый из которых обрабатывает часть рабочей нагрузки и синхронизируется с остальными. Это ускоряет обучение, но и делает его более уязвимым. Если один узел выйдет из строя, это может прервать всю работу, сбрасывая ход обучения до последней контрольной точки и тратя драгоценное вычислительное время. В кластере из 1024 графических процессоров это означает, что 1023 исправных графических процессора будут простаивать, пока неисправный узел восстанавливается или заменяется.

С увеличением размера кластера пропорционально растёт риск сбоя. Каждый дополнительный узел усложняет аппаратное и программное обеспечение, что увеличивает вероятность возникновения сбоев.
Пересмотр надежности в крупномасштабных исследовательских кластерах машинного обучения
В статье этот факт наглядно проиллюстрирован. Метрика среднего времени до отказа (MTTF) для кластеров разных масштабов представлена ​​ниже:
  • На 1024 GPU время до полной готовности (MTTF) составляет 7,9 часов.
  • На 16 384 графических процессорах среднее время до отказа составляет 1,8 часа.
  • На 131 072 графических процессорах среднее время до полной готовности (MTTF) составляет 14 минут.

Причины перерывов в работе во время масштабного обучения
Как мы видим, перерывы в работе неизбежны. Более того, они ожидаемы в крупных учебных кластерах и могут возникнуть по следующим причинам:
  • Плановые события (обслуживание кластера или перезапуски, инициированные пользователем)
  • Незапланированные сбои инфраструктуры (оборудования, сетей, хранилищ)
  • Проблемы со стороны пользователя (ошибки обучающего кода, неправильные конфигурации)
  • Исследовательская работа Меты
  • обнаружили, что для 54-дневного задания по обучению на кластере из 16 000 графических процессоров около 78% непредвиденных прерываний задания были связаны с проблемами оборудования, тогда как на ошибки программного обеспечения пришлось всего лишь около 12,9% прерываний.
Наиболее распространенные отказы оборудования возникают из-запроблемы с внутренней сетью, проблемы с файловой системой и сбои в работе графического процессора, подчеркивая, что сбои на уровне инфраструктуры являются основной причиной прерывания учебного процесса. Кроме того, именно эти компоненты наименее заметны и контролируемы пользователями.




В то же время многие непредвиденные сбои на уровне инфраструктуры могут оставаться неясными для операторов кластера и не могут быть однозначно отнесены к их причине, что препятствует эффективному устранению неполадок. Поэтому критически важными становятся детальное наблюдение и проактивный мониторинг работоспособности.

Важность отслеживания фактического использования графического процессора
При крупномасштабном обучении машинного обучения использование графических процессоров не обязательно означает, что они способствуют реальному прогрессу разработки модели. Кластер может казаться загруженным, пока задания перезапускаются, находятся в очередях или восстанавливаются после сбоев. Перерывы в выполнении заданий увеличивают общее время обучения, добавляя дополнительное время ненужного использования ресурсов графических процессоров, когда эти вычислительные блоки простаивают для обучения модели.

Чтобы увидеть, насколько эффективно мы используем зарезервированное время графического процессора, мы можем отслеживать полезную производительность — отношение времени вычислений, потраченного на достижение фактического прогресса в задаче машинного обучения, к общему времени обучения.

Есть разные определения полезной производительности и несколько относительно близких терминов, описывающих использование вычислений кластера, такие как коэффициент эффективного времени обучения (ETTR) или использование FLOPs модели (MFU), которые мы не рассматриваем в этой статье.


Если исключить из уравнения запланированную настройку кластера и время его обслуживания, то основным фактором, влияющим на показатель полезной производительности, будет время простоя вычислений, связанное с надежностью, вызванное прерываниями заданий и контрольными точками.

Согласно рисунку 1, мы можем рассчитать процент полезной производительности по следующей формуле:
Goodput = Useful compute time / (Useful compute time + Idle compute time)где Idle compute time

состоит из:
  • Время создания контрольной точки: процесс также занимает время и приводит к кратковременному прерыванию выполнения. Возможная потеря времени при использовании хранилища, оптимизированного для ИИ, может составить до одной минуты.
  • Потеря времени обучения с последней контрольной точки: каждая ошибка сводит на нет прогресс, достигнутый с момента последней контрольной точки. Возможная потеря до нескольких часов (в зависимости от частоты контрольных точек).
  • Время восстановления после сбоев: системе требуется время для обнаружения сбоя и запуска процесса восстановления, который включает замену узла, перезапуск задания и инициализацию модели. Потенциальные потери могут составлять от десятков минут до нескольких часов (в зависимости от уровня автоматизации).
Такой подход наглядно демонстрирует, как показатели надёжности могут влиять на эффективность инвестиций в инфраструктуру ИИ и рентабельность продуктов ИИ. Сокращение времени простоя кластера графических процессоров приводит к ускорению разработки моделей, сокращению времени вывода продуктов на рынок и освобождению ресурсов кластера для дополнительных экспериментов.

Как мы измеряем надежность кластеров ИИ
В то время как метрика полезной производительности количественно оценивает влияние низкой надежности кластера на бизнес, другие ключевые метрики предоставляют инженерам полезную информацию для повышения надежности инфраструктуры ИИ: среднее время между отказами (MTBF), среднее время до отказа (MTTF) и среднее время восстановления (MTTR).

В Nebius мы уделяем особое внимание показателям MTBF и MTTR, чтобы отслеживать ход наших постоянных усилий по улучшению стабильности кластера.

MTBF: как часто происходят отказы
MTBF измеряет время работы кластера до возникновения сбоя. Мы выражаем его в часах работы графических процессоров (GPU) — общем времени безотказной работы всех графических процессоров кластера, делённом на количество сбоев, связанных с инфраструктурой (например, сбои GPU, ошибки PCIe, сбои сети).
Среднее время безотказной работы =Number of GPUs * Operational time / Number of infra failures


Например, кластер из 1024 графических процессоров, работающий в течение 336 часов с 13 сбоями инфраструктуры, даёт среднее время безотказной работы (MTBF) 26 446 графических процессоров-часов. Чтобы перевести эту метрику в обычные часы, нужно просто разделить значение на количество графических процессоров в кластере, что составляет около 25,8 часов.

Мы используем показатель MTBF для отслеживания стабильности нашей инфраструктуры. Рост MTBF указывает на повышение надежности компонентов, улучшение работы встроенного ПО или драйверов, а также на успешные стратегии профилактики (например, более разумное планирование задач или контроль работоспособности). И наоборот, снижение MTBF указывает на ухудшение качества обслуживания клиентов и надежности кластера.

Чем выше среднее время безотказной работы (MTBF), тем меньше перезапусков задания, меньше вычислительных ресурсов тратится впустую и тем более плавным становится жизненный цикл обучения ИИ.

MTTR: ​​Как быстро восстанавливается система
MTTR измеряет среднее время, необходимое для обнаружения, изоляции и устранения сбоев инфраструктуры, возвращая затронутый узел или сегмент кластера в работоспособное, планируемое состояние.
MTTR =Total resolution time / Number of infra failures

Общее время устранения неполадки включает все этапы по замене неисправного узла и предоставлению готового к использованию работоспособного узла: изоляция узла, предоставление запасного узла и повторное присоединение состояния (например, драйверов, среды, кластерной структуры).

Как мы обеспечиваем надежность кластеров ИИ в Nebius
Обеспечение надежности кластера ИИ — многоуровневая задача, требующая тесной координации инженерных усилий по всему комплексу инфраструктуры. В Nebius мы создаём вертикально интегрированное облако ИИ, обеспечивая оптимальную настройку и согласованность каждого компонента этого комплекса для обеспечения надёжности системы. Мы можем выделить пять основных компонентов с автоматизацией на каждом этапе, которые составляют наш подход к созданию предсказуемой и стабильной среды для крупномасштабного распределённого обучения.
  • Многоэтапные приемочные испытания
  • Пассивные и активные проверки здоровья
  • Изоляция и миграция рабочей нагрузки
  • Замена узла и восстановление состояния
  • Сквозное наблюдение и проактивные уведомления
Давайте подробнее рассмотрим каждый из этих методов обеспечения надежности.

Многоэтапные приемочные испытания
У нас есть уникальная возможность повысить надежность кластера уже на начальном этапе — путем проектирования серверных компонентов, разработки фирменных прошивок и осуществления тщательного контроля на площадке контрактного производства.

Заводские испытания на месте
Сначала тестирование начинается на заводе, сразу после сборки сервера. Мы тестируем производительность каждого серверного узла, гарантируя, что он покинет завод только в том случае, если все его компоненты, от системы охлаждения и блока питания до производительности графического процессора и NVMe, работают ожидаемым образом.
  • Термическая стабильность: gpu_burn стресс-тест
  • Power stress: импульсная нагрузка на графический процессор для проверки способности блока питания выдерживать пиковые нагрузки
  • Диагностика NVIDIA: DCGM -4 (8–12 часов с плагином EUD) и т. д.
  • Тесты производительности: ядра SuperBench, NCCL, HPL (LINPACK) и собственный обучающий тест LLM на основе JAX от Nebius
  • Фоновый мониторинг: dmesg, обнаружение перебоев в работе Ethernet/IB-соединения, журналы системных ошибок

Тесты развертывания узлов
После развёртывания оборудования на площадке дата-центра мы проводим следующий этап тестирования перед первой загрузкой узла или после его повторного развёртывания после устранения неполадок. Этот этап тестирования позволяет убедиться в стабильной работе узла перед его добавлением в кластерную сеть.
  • Диагностика DCGM: запустите dcgmi diag -4 с плагином EUD в 30-минутном цикле для проверки графического процессора, PCIe, питания и тепловой стабильности.
  • Фоновый мониторинг: отслеживание dmesg, счетчиков Ethernet/IB и стабильности соединения во время всех тестов.
  • Gpu_burn + NCCL p2pBandwidth: стрессовая проверка графических процессоров и проверка пропускной способности межсоединений
  • SuperBench: выполнение набора тестов производительности вычислений, памяти и связи (GEMM, gpu-copy, mem-bw, nccl-bw, вывод ORT/TensorRT и т. д.)
  • Тест Nebius LLM: запуск обучения MoE на базе JAX для проверки готовности к сквозной рабочей нагрузке
  • Диагностика партнеров (NVIDIA Field Diagnostics): расширенная диагностика графического процессора NVIDIA

Тесты виртуальной платформы
Мы проводим диагностические тесты на уровне виртуализации для образов виртуальных машин, узлов и кластерной структуры, гарантируя надежную работу облачной среды при интенсивных рабочих нагрузках.
Пассивные проверки
  • Работоспособность экземпляра/формы: проверка состояния виртуальной машины, типа платформы (H100/H200/L40S/B200), количества графических процессоров, настроек InfiniBand, IP-адреса SSH.
  • Конфигурация Virt/PCIe: проверьте MaxReadReq, устройство pvpanic, настройки PCIe
  • Состояние графического процессора NVIDIA: подтверждение количества графических процессоров, режима ECC, версии VBIOS
  • Состояние структуры: проверка топологии NVLink/PCIe, обнаружение DCGM
  • Работоспособность InfiniBand: обеспечение правильного количества устройств CX7, активных портов, согласованности прошивки и ключей pkeys.
  • Проводка для наблюдения: проверка токена IAM, плотности метрик, сбор журналов агента
Активные проверки
  • Диагностика DCGMI (уровень 2): 11-минутный стресс-тест GPU, PCIe, NVLink
  • Примеры CUDA: deviceQuery, vectorAdd, multiGPU, P2P, тесты пропускной способности
  • Пропускная способность копирования SuperBench: проверка пропускной способности графического процессора ↔ центрального процессора в сравнении с пороговыми значениями
  • OSU MPI: проверка работоспособности osu_hello / osu_init
  • NCCL all-reduce: коллективная проверка пропускной способности внутри хоста GPU
  • Кольцо NCCL через InfiniBand: проверка транспорта InfiniBand с помощью кольцевого алгоритма

Предварительные кластерные тесты
Наконец, мы запускаем несколько проверок и тестов, аналогичных производственным (например, тесты NVIDIA DGX), чтобы убедиться, что кластер соответствует всем целевым показателям производительности и полностью стабилен для распределенных рабочих нагрузок ИИ.
  • Коллективы NCCL: проверка работоспособности сети InfiniBand, обнаружение неисправных или ухудшенных соединений
  • Обучение MLPerf: оценка распределенных учебных рабочих нагрузок для производительности графических процессоров и межсоединений
  • Тесты NVIDIA DGX: сравните производительность кластера со стандартными для отрасли рабочими нагрузками
  • GPU Fryer: проверка графических процессоров на стрессоустойчивость для обнаружения аномального теплового дросселирования или ухудшения характеристик
  • HPL (LINPACK): сильно нагружает графические процессоры; чувствителен к потере пакетов и нестабильности соединений
  • InfiniBand Ring / All-to-All (без NVLink): проверка стабильности соединения InfiniBand при коллективной связи
  • ClusterKit: запустите NVIDIA IB bring-up suite для проверки пропускной способности и задержки.
  • Проверки топологии InfiniBand: проверка соединений «ядро-позвоночник-лист» и назначений рельсов через API UFM; без расхождений
  • HPL на группах хостов: запуск на подмножествах из 8, 16 и 32 узлов; требуется отклонение производительности <1%
  • NCCL в группах хостов: то же, что и выше, тестирование коллективов на узлах POD/Core
  • Длительная диагностика DCGM: запуск расширенных 8–12-часовых стресс-тестов графического процессора с плагином EUD для всех POD; все должны пройти успешно
  • Gpu_burn: проверка термостабильности на уровне стойки; перегрев не допускается
  • Импульсный тест графического процессора: подайте одновременную импульсную нагрузку на узел/стойку; блок питания должен выдерживать пиковую мощность

Только после успешного прохождения всех этих испытаний мы выпускаем оборудование в эксплуатацию. Эти первоначальные инвестиции помогают нам предотвращать сбои, увеличивая среднее время безотказной работы и обеспечивая стабильную производительность с первого дня.

Пассивные и активные проверки здоровья
При запуске кластера первым шагом для обеспечения его надёжности является как можно более раннее выявление проблемы. Для этого мы проводим комплексные проверки работоспособности. Они помогают нам определить, какие узлы кластера недостаточно работоспособны для планирования задач и постановки их в очередь.

Почему это важно?
Выявление проблем: благодаря комплексным проверкам работоспособности системы, как правило, достаточно всего нескольких секунд, чтобы выявить проблемы и минимизировать сбои в работе. Для сравнения, без проверок работоспособности системы проблемы можно выявить только в случае сбоя работы под нагрузкой.

Определение первопричины: при правильной настройке проверки работоспособности причины проблем отображаются мгновенно, что помогает выявить их и устранить. Без проверки работоспособности определение причины сбоев узлов может быть сложной задачей и потребовать многочасового исследования.

Мы разработали набор пассивных и активных проверок работоспособности, которые непрерывно работают в фоновом режиме и контролируют все критически важные компоненты системы: графические процессоры, системное программное обеспечение, сетевые соединения и многое другое.

Пассивные проверки здоровья
Пассивные проверки работоспособности непрерывно собирают, обобщают и анализируют данные в фоновом режиме. Они предназначены для раннего выявления признаков ухудшения работы или сбоя без ущерба для рабочих нагрузок. Ниже приведены некоторые примеры параметров, которые мы отслеживаем с помощью пассивных проверок работоспособности.
Аппаратное обеспечение и драйвер графического процессора
  • Согласованность версий драйверов и библиотек (CUDA, NCCL и т.д.)
  • Обнаружение ошибок ECC (код исправления ошибок)
  • Мониторинг температуры и оповещения о дросселировании
  • Мониторинг состояния электропитания и отслеживание использования
  • Отчеты об ошибках XID/SXID (коды исключений графического процессора)
  • Состояние шины PCIe и состояние питания
Сеть InfiniBand
  • Проверка статуса соединения (обнаружение работоспособности/неработоспособности)
  • Счетчики аппаратных ошибок (например, повторные попытки, CRC, потерянные пакеты)
Система и топология
  • Использование диска и доступная емкость
  • Топология NVLink: наличие, количество активных соединений, состояние пропускной способности
  • Отслеживание работоспособности коллективов NCCL (например, тайм-ауты, зависания)

Активные проверки здоровья
Активные проверки работоспособности выполняются во время определённых событий жизненного цикла кластера или в периоды простоя. Они заблаговременно выявляют неисправности до планирования заданий, помогая предотвратить перерывы в обучении и повысить общую надёжность.

Эта функция включена по умолчанию в кластерах на базе Soperator и доступна в режиме предварительного просмотра для управляемых сред Kubernetes по запросу.
  • DCGM diag 2, 3: Запуск диагностики графического процессора NVIDIA (быстрая в r2, расширенный стресс-тест в r3) для проверки состояния питания, памяти, PCIe и температуры, выявляя как общие, так и скрытые неисправности оборудования.
  • Производительность All-Reduce на одном узле (тест NCCL с NVLink): запускает NCCL All-Reduce на каждом узле для проверки высокопроизводительной связи между графическими процессорами с использованием NVLink.
  • Производительность All-Reduce с одним узлом (тест NCCL с Infiniband): выполняет тот же тест All-Reduce, принудительно использующий Infiniband вместо NVLink.
  • Производительность All-Reduce в многоузловой среде (тест NCCL с NVLink и Infiniband): выполняет распределенный тест All-Reduce, который проверяет связь NVLink между графическими процессорами в пределах одного узла и связь Infiniband в пределах разных узлов.
  • ib_write_bw / ib_write_lat (GPU Target): измеряет пропускную способность InfiniBand и задержку между графическими процессорами через RDMA для обеспечения оптимальной производительности межузловой сети GPU.
  • ib_write_bw / ib_write_lat (ЦП Целевой): Тестирует скорость InfiniBand из памяти ЦП для выявления узких мест или нестабильности сети, связанных с PCIe или сетевым адаптером.
  • GPU-fryer: подвергает стрессу вычисления и память графического процессора для обнаружения тепловой нестабильности, дросселирования или деградации кремния при полной нагрузке.
  • Проверка пропускной способности памяти (membw): измеряет пропускную способность памяти (GPU HBM или CPU DRAM) для проверки работоспособности подсистемы памяти и выявления неисправностей, ограничивающих пропускную способность.
  • Обучение модели МО: запускает небольшое распределенное задание по обучению, чтобы проверить, что графические процессоры, сетевые соединения, контейнеры и планирование работают сквозным образом, как в производственной среде.

Изоляция рабочей нагрузки и предотвращение сбоев в работе
После выявления проблемы следующим шагом является изоляция неисправного узла от доступности по расписанию и предотвращение каскадных сбоев заданий. Кроме того, нам необходимо минимизировать влияние на текущую рабочую нагрузку клиента, чтобы предотвратить сбои заданий. Ниже представлено описание нашего подхода.

Критические неисправности
  • Система автоматически отключает неработоспособные узлы, удаляя их из пула планирования, позволяя при возможности завершить текущие задания. Такой подход исключает каскадные сбои заданий, а отключённые узлы отключаются за считанные секунды без какого-либо ручного вмешательства, как и в случае неавтоматизированного потока.
  • Система отправляет сигнал «экстренной контрольной точки» в систему обучения клиента, побуждая её сохранить ход выполнения задания перед его завершением. Это может сэкономить часы обучения. Эта функция появится в ближайшее время.
  • При проблемах с сетевым подключением система перенаправляет соединение (например, AllReduce) затронутого узла через исправные каналы. Это может привести к временному снижению производительности, но предотвращает сбои заданий и потерю прогресса обучения. Эта функция появится в ближайшее время.

Некритические неисправности
Система помечает затронутый узел для упреждающего устранения неполадок, не влияя на текущие рабочие нагрузки.
«Мы экспериментируем с TorchFT, новая библиотека PyTorch, обеспечивающая отказоустойчивость на каждом этапе распределенного обучения. В отличие от традиционных схем, TorchFT позволяет продолжать обучение даже при отказе отдельных узлов или графических процессоров, избегая полного перезапуска задания. Несмотря на то, что TorchFT все еще находится в стадии развития, он демонстрирует высокий потенциал для крупномасштабного обучения LLM и рабочих нагрузок, требующих высокой отказоустойчивости.
Если вы заинтересованы во внедрении TorchFT, мы будем рады поддержать интеграцию и поделиться некоторыми идеями».

Замена узла и восстановление состояния
Когда неисправный узел выключается и переходит в режим ожидания, наши механизмы оркестровки автоматически заменяют его исправным резервным. Мы создаём выделенный резервный буфер графических процессоров для каждого клиента, чтобы обеспечить быстрое выделение ресурсов для нового узла и исключить риск его простоя из-за нехватки ресурсов. Новый узел автоматически появляется в кластере со всеми предустановленными драйверами и зависимостями, готовясь к работе сразу после выделения ресурсов.
Благодаря полной автоматизации в Nebius эта задача занимает считанные минуты.вместо часов с ручным вмешательством.

Сквозное наблюдение и проактивные уведомления
Важная составляющая надёжности — это наблюдаемость. Прозрачность инфраструктуры — ключ к отличному клиентскому опыту.

У нас есть различные уровни наблюдения: системные метрики, контроль работоспособности и т. д. Давайте рассмотрим стек контроля работоспособности для Soperator, нашего управляемого оркестратора на базе Slurm.
  • Мониторинг заданий: мы предоставляем обобщенную информацию о заданиях в кластере, что позволяет вам выбрать задание для детального изучения.
  • Мониторинг рабочих узлов: вы также можете просматривать агрегированную информацию и отдельные сведения по рабочим узлам. Здесь регистрируются все сбои инфраструктуры кластера с указанием причин (например, XID графического процессора, проблемы с IB и т. д.). Вы можете определить причины сбоя задания, а также проверить, устранены ли какие-либо проблемы кластера или продолжают ли они решаться.
  • Общее состояние кластера: содержит всю информацию, связанную с состоянием работоспособности графического процессора, центрального процессора и хранилища.

Кроме того, мы заблаговременно уведомляем клиентов о проблемах с кластерами, плановом техническом обслуживании и сбоях в работе, чтобы предотвратить скрытые сбои и потерю времени. У нас есть специальный канал Slack для интеграции с нашими клиентами для быстрого, эффективного и удобного общения. Клиенты могут настраивать уведомления о таких событиях, как:
  • Оповещения о прерываниях в режиме реального времени: мгновенные уведомления о сбоях или задержках учебных заданий. Выявлены критические проблемы со здоровьем, которые могут повлиять на рабочую нагрузку.
  • Обнаружение ухудшения производительности: выявляйте скрытые проблемы, связанные со снижением производительности, и уведомляйте о них. Эта функция появится в ближайшее время.
Без надлежащего контроля анализ сбоев в работе отнимает часы ценного рабочего времени инженера машинного обучения. Благодаря интегрированным панелям управления и уведомлениям в режиме реального времени мы сокращаем время устранения неполадок с нескольких часов до нескольких минут, обеспечивая мгновенное понимание первопричин сбоев.

Проверенная в боях надежность для производственных кластеров ИИ
Благодаря нашим уникальным стратегиям управления сбоями мы можем предоставить нашим клиентам надежную ИИ-инфраструктуру для крупномасштабных распределенных рабочих нагрузок, а также сократить потери времени и средств, связанные с перерывами в обучении.

Синтетические бенчмарки не могут полностью охватить поведение крупномасштабных кластеров ИИ под реальными рабочими нагрузками. Для получения более реалистичной картины мы также измеряем надёжность клиентских производственных сред, в которых проводится интенсивное распределённое обучение.

В начале статьи мы упомянули анонимного клиента, который запустил несколько заданий обучения LLM на кластере из 3000 графических процессоров (375 узлов). Эта система достигла пикового среднего времени безотказной работы (MTBF) 56,6 часа (169 800 часов работы GPU), при среднем показателе 33,0 часа за последние несколько недель. Хотя каждая учебная среда уникальна, и выводы об одном кластере нельзя напрямую применить к другому, мы видим, как надежность кластера приводит к уменьшению количества прерываний и уменьшению затрат, требуемых от команд машинного обучения при масштабном обучении.

Когда дело доходит до способности кластера восстанавливать свое состояние, мы достигаем среднего среднего времени восстановления (MTTR) 12 минут на большинстве наших установокЭтот впечатляющий результат стал возможен благодаря сквозной автоматизации процесса восстановления: от ранней диагностики неисправностей до развертывания заменяющих узлов без вмешательства человека.
Поскольку задачи обучения распределены по сотням графических процессоров, даже небольшие сбои могут сбить графики поставок. Стабильность, которую мы получаем от кластеров Nebius, позволяет нам планировать масштабные эксперименты без постоянной корректировки возможных сбоев
Дрю Джэгл, руководитель отдела искусственного интеллекта в Captions

Мы считаем, что представленные выше показатели надёжности говорят сами за себя, но создание устойчивой инфраструктуры ИИ — это гораздо больше, чем просто цифры. Это непрерывный процесс. Именно поэтому мы разрабатываем и постоянно совершенствуем целый комплекс механизмов для раннего обнаружения сбоев, быстрого восстановления и поддержания работы кластеров с минимальными перебоями — даже в сложных условиях масштабного и длительного обучения.

Наша цель — повысить производительность и помочь вам получить максимальную отдачу от инвестиций в инфраструктуру ИИ.Высокая доступность в любом масштабе сокращает незапланированные перерывы, сокращает циклы восстановления и позволяет командам сосредоточиться на выполнении своей работы, а не на управлении инцидентами.

Если вы ищете надежное облако, специально разработанное для крупномасштабного обучения искусственного интеллекта, или просто хотите узнать больше о нашей платформе, свяжитесь с нами

studio.nebius.com/playground
console.nebius.com
nebius.com

Представляем самообслуживаемые графические процессоры NVIDIA Blackwell в облаке Nebius AI Cloud



Экземпляры NVIDIA HGX B200 теперь доступны публично как самообслуживаемые ИИ-кластеры в облаке Nebius AI Cloud. Это означает, что любой может получить доступ к NVIDIA Blackwell — новейшему поколению платформы ускоренных вычислений NVIDIA — всего за несколько кликов и с помощью кредитной карты.
nebius.com/self-service

Nebius устраняет барьеры на пути к передовым вычислениям в области ИИ в рамках нашей стратегии демократизации ИИ. Никаких списков ожидания, долгосрочных обязательств, длительных циклов закупок или переговоров о продажах — только мгновенный доступ через нашу веб-консоль или API с оплатой по факту использования.

Получите доступ к новейшим вычислениям ИИ с помощью всего лишь кредитной карты
На выставке GTC в Париже мы объявили о том, что один из первых экземпляров GB200 NVL72 доступен для клиентов в Европе. Сегодня мы предоставляем экземпляры HGX B200 разработчикам ИИ любого масштаба через наш портал самообслуживания. Независимо от того, являетесь ли вы индивидуальным энтузиастом ИИ, инженером МО в крупной исследовательской группе или внедряете ИИ в корпоративном контексте, доступ к вычислениям NVIDIA B200 теперь стал проще, чем когда-либо.

Наш ранний доступ к NVIDIA HGX B200 через Nebius AI Cloud позволил нам достичь новых высот оптимизации вывода. Первые результаты показали многообещающее повышение производительности — примерно в 3,5 раза более быстрый вывод для диффузионных моделей, что критически важно для удовлетворения растущих потребностей индустрии ИИ
Кирилл Солодских, генеральный директор и соучредитель TheStage AI, платформы для ускорения вывода

Кластеры Nebius, созданные с использованием искусственного интеллекта
Мы поставляем экземпляры NVIDIA HGX B200 в составе Nebius AI Cloud — полнофункциональной ИИ-инфраструктуры, которую мы создали с нуля для интенсивных и масштабных рабочих нагрузок ИИ. Кластеры графических процессоров NVIDIA объединены неблокируемой инфраструктурой NVIDIA Quantum-2 InfiniBand и поставляются с предустановленными драйверами графического процессора и сети, а также программным обеспечением для оркестрации (Kubernetes или Slurm).

NVIDIA HGX B200 поставляется на одной материнской плате с восемью графическими процессорами (тот же форм-фактор, что и у предыдущих моделей Hopper SXM), что позволяет легко интегрировать HGX B200 в серверные стойки Nebius, разработанные по индивидуальному заказу.

Бескомпромиссная производительность
Независимо от того, является ли это средой с одним хостом по требованию или зарезервированной установкой с тысячей графических процессоров, все кластеры ИИ в Nebius проходят трехэтапное приемочное тестирование.

Мы осуществляем контроль качества на месте у контрактного производителя, проверяем узлы перед их развертыванием в наших дата-центрах, а затем проводим комплексное тестирование кластера перед передачей его клиентам. Это тщательное тестирование гарантирует соответствие производительности NVIDIA HGX B200 в Nebius собственным бенчмаркам NVIDIA.

Будущее ИИ уже здесь. Доступно каждому.
Независимо от того, являетесь ли вы индивидуальным исследователем или членом крупной корпоративной команды, вы получаете полностью протестированные и оптимизированные кластеры графических процессоров, индивидуально разработанную инфраструктуру и бескомпромиссную производительность, которая гарантирует, что ваши рабочие нагрузки ИИ будут выполняться именно так, как и ожидалось.

Будущее развития искусственного интеллекта уже наступило, и оно доступно по запросу.
Доступ к NVIDIA HGX B200
систем сегодня через нашу веб-консоль или API.
auth.nebius.com/ui/login

Новый вебинар с исследователем DeepMind



Присоединяйтесь к нам, чтобы исследовать пределы архитектуры LLM и увидеть, почему огромные трансформаторы могут справляться со сложными задачами, но по-прежнему испытывают трудности с простыми вычислениями.

27 августа в 19:00 по центральноевропейскому летнему времени (10:00 по тихоокеанскому времени) Nebius Academy проведет вебинар под руководством Ларисы Маркеевой, старшего инженера-исследователя и технического руководителя компании DeepMind.

Подключайтесь, чтобы узнать ключевые идеи из недавних рецензируемых статей, диагностирующих фундаментальные недостатки в программах магистратуры права и предлагающих потенциальные решения.

Мы рассмотрим:
  • Как вращательные позиционные вставки вызывают помехи в длинных контекстах.
  • «Узкое место авторегрессии» и информационный коллапс в стандартных вычислительных графах.
  • CLRS-Text — новый бенчмарк, который переводит классические алгоритмические задачи в текст для эффективной оценки рассуждений.
  • Это мероприятие идеально подходит для разработчиков, инженеров и исследователей, работающих с LLM, — особенно для тех, кому интересно узнать, как модели функционируют «под капотом».

nebius.zoom.us/webinar/register/WN_DFZTHpLZTU-evGy7cF0k1A