Многозадачность в своем самом лучшем: новый сервер AX162 с AMD EPYC 9454P



Позвольте представить вам AX162, новый выделенный сервер Hetzner, который на самом деле выпускается в двух вариантах: AX162-R и AX162-S. Обе модели оснащены процессором AMD EPYC Genoa 9454P, архитектура которого относится к 4-му поколению и специально разработана для интенсивных рабочих нагрузок, требующих параллельной обработки. Его 48 ядер и 96 потоков удваивают производительность процессора по сравнению с предыдущим поколением благодаря технологии одновременной многопоточности и архитектуре Zen 4. Дополнительным преимуществом является функция виртуализации AMD-V, которая идеально подходит для случаев использования, связанных с виртуализацией и высокопроизводительными вычислениями.

Базовая конфигурация AX162-R оснащена большим объемом оперативной памяти для ускорения выполнения задач и скорости доступа к файлам: вы получаете 256 ГБ памяти DDR5 ECC. ОЗУ плюс 2 твердотельных накопителя NVMe Gen4 Datacenter Edition по 1,92 ТБ. Базовая конфигурация AX162-S требует большего объема хранилища для случаев использования с быстро растущими требованиями к объему хранилища: он поставляется с 2 твердотельными накопителями Datacenter Edition NVMe емкостью 3,84 ТБ и 128 ГБ памяти DDR5 ECC с регистром. БАРАН.

Естественно, вы можете настроить обе модели AX162 в соответствии с вашими конкретными требованиями. Вы можете постепенно увеличивать объем памяти до невероятных 1152 ГБ регулярной оперативной памяти DDR5 ECC. А если вам нужно больше емкости хранилища, вы можете добавить до 8 твердотельных накопителей NVMe Datacenter Edition или 2 жестких дисков SATA Enterprise различных размеров.

Цена также впечатляет: AX162 доступен с IPv4-адресом всего за 199,00 евро плюс единовременная плата за установку в размере всего 79,00 евро.
www.hetzner.com/dedicated-rootserver/matrix-ax/

Изменение сервиса авторизации в продуктах управления ИТ-инфраструктурой



В марте 2024 года в продуктах VMmanager 6 и DCImanager 6 произойдут знаковые обновления, касающиеся обмена информацией об авторизации между сервисами платформ.

Третья версия сервиса авторизации auth/v3 будет полностью отключена, и вместо нее в продуктах будет использоваться сервис авторизации актуальной 4-й версии.

Почему мы переходим на версию auth/v4?
Такой подход устраняет разночтения между сервисами авторизации: переход на auth/v4 позволяет избежать ситуаций, когда информация о сессии в auth/v3 может быть неактуальной, что приводит к ошибкам в работе системы.

Кроме того, исчезают рассинхронизации между таблицами СУБД: новая версия сервиса авторизации помогает избежать ошибок при работе с пользователями, например, при создании пользователя до его приглашения.

Преимущества работы нового сервиса авторизации:
  • Улучшенная производительность: auth/v4 работает быстрее, чем auth/v3, что позволяет ускорить операции авторизации и обработки запросов.
  • Улучшенная безопасность*: новая версия сервиса авторизации предоставляет возможность использования ACL и ограничений аутентификации для повышения безопасности системы.
  • *актуально для той части сервисов, которые раньше работали через auth/v3
  • Переход на auth/v4 обеспечивает единую точку входа для работы с авторизацией и пользователями. Это упрощает и облегчает администрирование системы, интеграцию платформ со сторонними программами, работу через API и восприятие информации в целом за счет фокусирования сообщений от разных сервисов в одном пространстве.
  • Переход на новую версию сервиса авторизации позволяет сократить количество контейнеров, тем самым уменьшив размер занимаемого дискового пространства платформы и ускорив процесс ее запуска и остановки. Кроме того, сервисы начали быстрее регистрироваться, что позволяет установить связь между названиями URI, например, /auth/v4/или /vm/v3/ (т.н. эндпоинтами) и реальным местонахождением сервисов (IP-адрес контейнера и порт сервиса) более эффективно. Быстрая регистрация сокращает время между запуском и началом работы с продуктом.

Что это означает?
После установки мартовских обновлений платформ VMmanager 6 и DCImanager 6 скрипты, биллинговые системы и/или другое ПО, использующие 3-ю версию сервиса авторизации (auth/v3) и не поддерживающие 4-ю версию (auth/v4), не смогут передавать данные об авторизации и перестанут корректно работать с продуктами ISPsystem.

Для дальнейшей эффективной работы платформ VMmanager 6/DCImanager 6 со сторонними решениями при использовании auth/v4 просим обратить внимание на следующее:
  • Если вы используете в работе биллинговую платформу BILLmanager, то его актуальные версии уже поддерживают данный вид авторизации и дополнительных действий от вас не потребуется.
  • Если вы используете биллинговые системы HostBill или WHMCS, то вам необходимо обновить их до актуальных версий. Версия WHMCS должна быть не старше, чем от ноября 2023. Обе системы поддерживают работу auth/v4 в актуальных версиях.
  • Если вы используете в работе с платформами свои скрипты или биллинг собственной разработки, то вам необходимо самостоятельно внести исправления.

Также обращаем ваше внимание, что после установки мартовского обновления VMmanager 6 и DCImanager 6 обратно включить авторизацию 3-ей версии не получится.

Инструкция как перейти на 4-ую версию сервиса авторизации на примере продукта VMmanager 6:

Откройте Swagger для VMmanager 6, раздел REST API Documentation Tool и найдите раздел, связанный с сервисом авторизации (обычно это раздел auth_v4).

Найдите методы API, связанные с созданием, обновлением и удалением пользователей в текущей версии сервиса авторизации (auth/v3).
Создайте новые методы API для работы с пользователями в новой версии сервиса авторизации (auth/v4). Подробнее указано в нашей документации: docs.ispsystem.ru/vmmanager-admin/razrabotchiku/api/auth-api-v4.
Обновите документацию Swagger, чтобы отразить изменения в методах API и добавить описание новых возможностей и параметров, доступных в auth/v4.
Убедитесь, что все запросы к сервису авторизации теперь используют новые методы API для работы с пользователями в auth/v4.
Проведите тестирование возможностей, связанного с авторизацией, чтобы убедиться, что все изменения работают корректно.

Важно! Зарубежные VPN



Уважаемые друзья
Ходят слухи, что с 1 марта дегенераты планируют ужесточить меры по контролю интернета в РФ, в том числе это может коснуться ограничений VPN.

Рекомендую не рисковать своей свободой и позаботиться об аренде сервера за пределами РФ для доступа к полноценному интернету.

Специально для этого мы создали отдельный сервис аренды серверов за пределами РФ www.vdsina.com/ru
  • Доступны все популярные сайты, включая ChatGPT, Netflix, Dell, Intel.
  • Оплата с российских банковских карт, зарубежных карт, криптовалютой
  • Готовые шаблоны серверов с Outline VPN, WireGuard VPN, IPsec VPN

Если у вас уже есть сервер в vdsina.ru вы можете запросить помощь в переносе сервера на vdsina.com просто ответив на данное сообщение.

Приятной работы! Не позволяйте себя ограничивать и делать рабами!

С уважением,
VDSina.ru
Наш чат в Telegram t.me/vdsina

Олег Коверзнев возглавил Yandex Cloud



Главой Yandex Cloud стал Олег Коверзнев, один из основателей публичной облачной платформы, запущенной Яндексом в 2018 году. Ранее он занимал пост операционного директора Yandex Cloud. Коммерческий директор Yandex Cloud Александр Черников назначен генеральным директором Yandex Cloud в России и СНГ. Также в компании появилась должность директора по технологиям. Им стал Иван Пузыревский, ранее возглавлявший направление разработки инфраструктурных сервисов в Yandex Cloud. Алексей Башкеев, со-основатель Yandex Cloud, останется в составе совета директоров Yandex Cloud и сосредоточится на общих технологических и инфраструктурных задачах Яндекса.

Олег Коверзнев создавал команду и формировал стратегию развития облачной платформы Яндекса с момента ее основания: сначала в роли директора по развитию бизнеса Yandex Cloud, а с 2020 года – операционного директора. В качестве руководителя Yandex Cloud он сфокусируется на развитии технологической платформы и создании возможностей для всей экосистемы – клиентов, партнёров и профессионального сообщества в России и зарубежом.

Александр Черников работает в Yandex Cloud c 2019 года. За эти годы в разных ролях отвечал за выстраивание с нуля отраслевой экспертизы команды по работе с клиентами, масштабирование коммерческого блока, а также за рост бизнес-показателей публичной облачной платформы. Под руководством Александра в качестве коммерческого директора бизнес Yandex Cloud ежегодно показывает стабильный рост значительно выше рынка. В новой должности Александр продолжит фокусироваться на развитии бизнеса облачной платформы и поиске новых точек роста в России и СНГ.

Иван Пузыревский более 15 лет работает в Яндексе. Ранее он отвечал за развитие инфраструктурных сервисов платформы Yandex Cloud. До присоединения к команде Yandex Cloud в 2021 году, занимался разработкой и внедрением платформы хранения и обработки больших данных, которая в 2023 вышла в open source под названием YTsaurus, а также руководил разработкой и созданием продукта в Яндекс Путешествиях. В качестве директора по технологиям Иван займется развитием всего стека сервисов и технологий Yandex Cloud.

Алексей Башкеев, со-основатель Yandex Cloud, останется в составе совета директоров Yandex Cloud и сосредоточится на общих технологических и инфраструктурных задачах Яндекса. Алексей работает в Яндексе с 2009 года. Отвечал за разработку систем хранения и обработки данных, инструменты разработки и аналитику. Под руководством Алексея была создана общая инфраструктура Яндекса, на базе которой работают все сервисы Яндекса, включая Yandex Cloud.

С 2020 года я совмещал позиции руководителя внутренней инфраструктуры Яндекса и руководителя публичной облачной платформы Yandex Cloud. Это позволило Yandex Cloud максимально быстро пройти фазу становления: благодаря плотному сотрудничеству и преемственности многих технологий и команд, публичная облачная платформа на старте во многом опиралась на многолетний опыт внутренней инфраструктуры Яндекса, сейчас Yandex Cloud значительно вырос и стал зрелым бизнесом. В совете директоров Yandex Cloud я продолжу помогать технологическому развитию облачной платформы и при этом больше сосредоточусь на общих инфраструктурных задачах всего Яндекса. Уверен, команда Yandex Cloud продолжит успешно развивать облачную платформу, чтобы делать технологические сервисы Яндекса доступными для всего рынка
отмечает Алексей Башкеев, со-основатель Yandex Cloud

Добавили вечные дедики в Москве + NL1 (в процессе NL2 DE1)


У нас уже были



Пришло время анонсировать такой же тариф и для новых geo локаций.
Пока идет «процесс заполнения стоек» — такое предложение актуально.


В кемерово серверы стоили 120к*5 = получалась та сумма.
Для МСК и Европы покупаются серверы по курсу 95 евро уже, поэтому 210*5 = 1 миллион минимум за вечный. Но зато это реально вечное стойко место, если потом через 10 лет придет пора менять железо, мы реально поменяем весь сервер на более актуальный.


В Москве ММТС-9

Принимаем любые методы, карты, крипту, платежные системы — создайте тикет вручную на оплату. По безналу счет от ИП/ЮЛ так же можно сделать, если кто-то боится отправить миллион в usdt
bill.yacolo.net/billmgr


В Serverius NL
Тоже можно получить как Вечный сервер
Так и вечные виртуальные машины.
Домен мы еще не придумали, будет что-ниб «анти-мартин-хетзнер» в таком духе.

Поэтому пока что анонсирую в этом топике.
Вечный дедик
  • [вечная] Ryzen 9 7950x [16 vCore] / 192 DDR5 5600 МГц / 2x 2 ТБ NVME — 800000р/разово
Вечные ВМ
  • [вечная] NL-geo1, Ryzen 9 7950x (5400GHz) [16 vCore] / 2 DDR5 5600 МГц / 25 ГБ NVME — 20000р
  • [вечная] NL-geo1, Ryzen 9 7950x (5400GHz) [16 vCore] / 8 DDR5 5600 МГц / 100 ГБ NVME — 30000р
  • [вечная] NL-geo1, Ryzen 9 7950x (5400GHz) [16 vCore] / 16 DDR5 5600 МГц / 200 ГБ NVME — 60000р
  • [вечная] NL-geo1, Ryzen 9 7950x (5400GHz) [16 vCore] / 32 DDR5 5600 МГц / 400 ГБ NVME — 120000р

С днем защитника отечества!



С днем мужества, смелости, чести и силы
С днем настоящих Мужчин
Желаем всегда быть в форме, сохранять холодную голову и принимать правильные и уверенные решения в трудных вопросах!
Мира в семье, а в жизни стабильности!
Благодаря вам ваши близкие и родные чувствуют себя в безопасности

Но это еще не все
26 февраля, среди подписчиков нашего телеграм канала, разыграем 3 подписки Telegram Premium

Кто еще не подписан — тетелеграм канал Cloud4box
t.me/+ffAAuahcN9UwMzIy

С днем защитника отечества! Скидки на заказ и продление!



С днем защитника отечества! Каждый из вас, в своей сфере деятельности, вносит свой вклад в процветание и защиту своей страны, семьи и близких.
В этот день, от имени всей нашей команды, мы хотим поздравить каждого из вас с днем защитника отечества!
Пусть ваше мужество и преданность всегда будут вашими надежными компаньонами в любых начинаниях.
  • По случаю этого важного праздника, мы хотим порадовать вас скидкой в 23% на VPS в любой локации вместо носков!
  • На продления также действует скидка -8%, -17%, -25% на 3/6/12 мес

Спасибо за ваше доверие и поддержку!
С наилучшими пожеланиями,
команда https://4VPS.SU

Promo VPS starting from 1 euro with a lifetime discount!



Only today — promo servers starting from 1 euro with a lifetime discount!
  • AMD Epyc 7502P (3.35GHz) 1 vCore / 1 GB DDR4 / 10 GB NVMe — 1€/month.
  • AMD Epyc 7502P (3.35GHz) 2 vCore / 2 GB DDR4 / 20 GB NVMe — 2€/month.
  • *Germany/Finland

Servers are suitable for hosting bots, any kind of monitoring and services that require 24/7 operation.
Affordable and reliable. UPTime — 99.9%

Hurry up to order the needed amount of servers at the lowest cost!
No restrictions! Windows installation available.

Buy now and lock in the price permanently! Buy now and lock in the price permanently!

Только сегодня — промо-серверы по цене от 1 евро с вечной скидкой!
  • AMD Epyc 7502P (3.35GHz) 1 vCore / 1 GB DDR4 / 10 GB NVMe — 1€/мес.
  • AMD Epyc 7502P (3.35GHz) 2 vCore / 2 GB DDR4 / 20 GB NVMe — 2€/мес.
  • * Германия/Финляндия

Серверы подходят для размещения ботов, любых мониторингов и сервисов, требующих круглосуточной работы.
Бюджетно и надежно. UPTime — 99.9%

Успейте заказать нужное количество серверов по самой низкой стоимости!
Никаких ограничений! Доступна установка Windows.

При покупке прямо сейчас — стоимость будет постоянной!
Биллинг панель
billing.spacecore.pro/billmgr

С Днем Защитника Отечества!



Специально для вас мы предлагаем скидку 10% на наши услуги хостинга, VDS и выделенные сервера!
Воспользуйтесь промокодом 23feb-2024 при оформлении или продлении заказа. Акция продлится всего 4 дня, с 22.02.2024 по 25.02.2024 (включительно).
Пусть этот праздник наполнен гордостью и уважением к вам, нашим защитникам!
webhost1.ru/information/promo/2024-02-21-s-dnem-zawitnika-otechestva.html

Инфраструктуры для LLM в облаке

Открытый исходный код делает LLM (большие языковые модели) доступными каждому. Доступно множество вариантов, особенно для вывода. Вы, наверное, слышали о библиотеке вывода Hugging Face, но есть еще OpenLLM, vLLM и многие другие.

Основная проблема, особенно если вы такая компания, как Mistral AI, создающая новые LLM, заключается в том, что архитектура вашего LLM должна поддерживаться всеми этими решениями. Им нужна возможность общаться с Hugging Face, NVIDIA, OpenLLM и так далее.

Вторая проблема — это стоимость, особенно стоимости инфраструктуры, которая вам понадобится для масштабирования развертывания LLM. Для этого у вас есть разные решения:

Выбор подходящих графических процессоров (ваш LLM должен им соответствовать)
Выбор подходящей техники:
  • Квантование, которое предполагает уменьшение количества байтов, используемых переменными, поэтому вы можете разместить более крупные модели в меньших ограничениях памяти. Это компромисс между ними, поскольку это может повлиять на точность вашей модели и результаты ее производительности.
  • Методы точной настройки, такие как точная настройка с эффективным использованием параметров ( PEFT ). С помощью методов PEFT вы можете значительно снизить затраты на вычисления и память, настроив лишь небольшое количество (дополнительных) параметров модели вместо всех параметров модели. Вы также можете комбинировать методы PEFT с квантованием.
  • Затем вам нужно решить, будете ли вы размещать его самостоятельно; вы используете решение PaaS; или готовые к использованию конечные точки API, как это делает OpenAI.

Выбор правильного графического процессора


Вышеуказанное является предложением Scaleway, но аналогичные предложения в настоящее время устанавливаются у большинства крупных облачных провайдеров.
  • H100 PCIe 5 — флагманский и самый мощный графический процессор NVIDIA. Он имеет интересные функции, такие как Transformer Engine, библиотека для ускорения моделей Transformer на графических процессорах NVIDIA, включая использование 8-битной точности с плавающей запятой (FP8) на графических процессорах Hopper и Ada Lovelace, чтобы обеспечить лучшую производительность при меньшем использовании памяти как при обучении, так и при выводе.. Это ускоряет обучение моделей Transformer, а это означает, что вы можете поместить в память вдвое больше переменных, в 8 бит вместо 16. Кроме того, библиотека NVIDIA помогает упростить эти изменения; плюс большой объем памяти и пропускная способность памяти являются ключевыми моментами, поскольку чем быстрее вы сможете загрузить свою память, тем быстрее будет работать ваш графический процессор.
  • L4 PCIe 4 можно рассматривать как современного преемника NVIDIA T4, предназначенного для вывода, но прекрасно способного обучать меньшие модели LLM. Как и H100, он может работать с новыми форматами данных, такими как FP8. У него меньшая пропускная способность памяти, чем у H100, но это может создать некоторые узкие места в определенных случаях использования, например, при обработке больших пакетов изображений для обучения моделей компьютерного зрения. В этих случаях вы можете не увидеть значительного прироста производительности по сравнению, например, с предыдущей архитектурой Ampere. И в отличие от H100, у него есть возможности рендеринга видео и 3D, поэтому, если вы хотите создать синтетический набор данных для компьютерного зрения с помощью Blender, вы можете использовать этот графический процессор.
  • L40S PCIe 4 — это то, что NVIDIA считает новым A100. Он имеет в два раза больше памяти, чем L4, но с большей пропускной способностью памяти и более высокой вычислительной производительностью. По словам NVIDIA, для генеративного ИИ, когда вы оптимизируете свой код с помощью FP8 и так далее, DGX с 8x A100 с 40 Гбит NVlink может работать так же хорошо, как 8 L40S PCIe 4 без NVLink, так что это мощный и интересный графический процессор.

Совет по использованию экземпляров графического процессора 1: образы Docker


При использовании графических процессоров используйте образы Docker и начните с бесплатных изображений NVIDIA. Таким образом, код становится переносимым, поэтому его можно запускать на вашем ноутбуке, на рабочей станции, на экземпляре графического процессора (независимо от облачного провайдера, поэтому без привязки) или на мощном кластере (либо с SLURM в качестве оркестратора, если вы находитесь в мире HPC/AI или Kubernetes, если вы больше в мире AI/MLOps).

NVIDIA регулярно обновляет эти образы, поэтому вы можете воспользоваться улучшениями производительности и исправлениями ошибок/безопасности. Производительность A100 сейчас значительно лучше, чем при запуске, и то же самое будет относиться к H100, L4 и так далее. Кроме того, существует множество функций, позволяющих экономить время, которые позволят вам быстрее создавать POC, например, фреймворк и такие инструменты, как NeMo, Riva и т. д., которые доступны через каталог NGC (выше).

Это также открывает возможность использовать лицензию AI Enterprise для поддерживаемых конфигураций оборудования (что обычно можно увидеть только в предложениях облачных провайдеров), что обеспечит вам поддержку в случае возникновения ошибок или проблем с производительностью и даже предложит помощь на основе данных NVIDIA. ученых, чтобы помочь вам отладить ваш код и получить максимальную производительность от всех этих программ. И, конечно же, вы можете выбрать свою любимую платформу: PyTorch, TensorFlow, Jupyter Lab и так далее.

Использование экземпляров Scaleway GPU
В ОС Scaleway GPU OS 12 мы уже предустановили Docker, поэтому вы можете использовать его прямо из коробки. Меня часто спрашивают, почему не предустановлены CUDA или Anaconda. Причина в том, что эти программы должны выполняться внутри контейнеров, поскольку не у всех пользователей одинаковые требования. Например, они могут использовать разные версии CUDA, cuDNN или Pytorch, поэтому это действительно зависит от требований пользователя. И использовать контейнер, созданный NVIDIA, проще, чем устанавливать и поддерживать среду искусственного интеллекта Python. Кроме того, это упрощает воспроизведение результатов в рамках ваших тренировок или экспериментов.

Итак, в основном вы делаете это:
## Connect to a GPU instance like H100-1-80G {connect-to-a-gpu-instance-like-h100-1-80g}

ssh root@<replace_with_instance_public_ip>

## Pull the Nvidia Pytorch docker image (or other image, with the software versions you need)

docker pull nvcr.io/nvidia/pytorch:24.01-py3
[...]

## Launch the Pytorch container {launch-the-pytorch-container}

docker run --rm -it --runtime=nvidia \
-p 8888:8888 \
-p 6006:6006 \
-v /root/my-data/:/workspace \
-v /scratch/:/workspace/scratch \
nvcr.io/nvidia/pytorch:24.01-py3

## You can work with Jupyter Lab, Pytorch etc… {you-can-work-with-jupyter-lab-pytorch-etc}


Совет по использованию экземпляров графического процессора 2: MIG


Одной из уникальных особенностей H100 является MIG, или многоэкземплярный графический процессор, который позволяет разделить графический процессор на семь частей. Это действительно полезно, если вы хотите оптимизировать свою рабочую нагрузку. Если у вас есть рабочие нагрузки, которые не полностью нагружают графические процессоры, это хороший способ иметь несколько рабочих нагрузок и максимизировать использование графического процессора. Он работает с автономными виртуальными машинами и очень легко работает в Kubernetes. Вы запрашиваете одну ссылку на графический процессор, соответствующую разделению, которое вы хотите использовать для одного ресурса графического процессора.

В Kubernetes это так же просто, как заменить в файле развертывания классические ограничения ресурсов
nvidia.com/gpu: '1' . по желаемому имени раздела MIG, например, nvidia.com/mig-3g.40gb: 1

docs.nvidia.com/datacenter/tesla/mig-user-guide/index.html

Совет по использованию экземпляров графического процессора 3: NVIDIA Transformer Engine и FP8


Все графические процессоры последнего поколения (доступные в новейшей архитектуре графических процессоров Nvidia, а именно Hopper и Ada Lovelace) используют NVIDIA Transformer Engine, библиотеку для ускорения моделей Transformer на графических процессорах NVIDIA, включая использование 8-битной точности с плавающей запятой (FP8) в Hopper. и графические процессоры Ada, чтобы обеспечить более высокую производительность при меньшем использовании памяти как при обучении, так и при выводе.

Что касается использования формата данных FP8, то на самом деле существует два типа FP8, которые предлагают компромисс между точностью и динамическим диапазоном чисел, которыми вы можете манипулировать (см. диаграмму). При обучении нейронных сетей можно использовать оба этих типа. Обычно активация и вес вперед требуют большей точности, поэтому тип данных E4M3 лучше всего использовать во время прямого прохода. Однако при обратном проходе градиенты, проходящие через сеть, обычно менее подвержены потере точности, но требуют более высокого динамического диапазона. Поэтому их лучше всего хранить в формате данных E5M2. Этим можно даже управлять автоматически с помощью формата «ГИБРИД» (подробнее здесь).

Transformer Engine предназначен не только для трансформеров. Поскольку он также может оптимизировать линейные операции, он может принести пользу другим архитектурам моделей, таким как компьютерное зрение (см. пример MNIST). Итак, по сути, вы устанавливаете пакет движка Transformer с помощью «pip», загружаете пакет и просто тестируете или заменяете определенный оперант. модули (из ваших любимых сред глубокого обучения) с помощью модуля, входящего в состав пакета Transformer engine (см. пример MNIST выше). Если вы хотите потратить немного времени на оптимизацию своего кода, используя Transformer Engine и формат FP8, вы можете это сделать. Здесь полезно оптимизировать, потому что вы будете использовать меньше памяти, использовать больше переменных и ускорять вывод и обучение. Поэтому обязательно оптимизируйте свой код!

Использование LLM в производстве: создание чат-бота с искусственным интеллектом с помощью RAG


Если вы хотите использовать LLM в производстве, возможно, вам захочется создать чат-бота, и для этого вам, вероятно, понадобится точно настроить модель ваших данных для вашего конкретного случая использования. С библиотекой Transformers Hugging Face это легко с точки зрения кода; но улучшить результаты может быть сложно, поскольку это требует множества проб и ошибок.

Другой метод — взглянуть на RAG, или Retrival Augmented Generation, который можно выполнить перед тонкой настройкой или вместо нее. Таким образом, риск поломки модели снижается, как и риск тонкой настройки. Кроме того, при использовании RAG не требуется затрат на тонкую настройку, поскольку вы не платите за использование графического процессора при нескольких попытках, необходимых для точной настройки; и вы можете сохранить конфиденциальность своих данных, разместив их локально. Кроме того, вы снижаете риск возникновения галлюцинаций, что всегда плохо, когда вы пытаетесь создать чат-бота с искусственным интеллектом для своего бизнеса. Поэтому я включил документацию, объясняющую эту систему. У NVIDIA даже есть проект на GitHub, который позволит вам создать своего первого чат-бота с искусственным интеллектом с помощью RAG всего за пять минут.

Что вам нужно для обучения основам LLM
Во-первых, много денег! В официальном документе LLaMA говорится, что обучение LLaMa с использованием 2048 графических процессоров A100 емкостью 80 ГБ заняло 21 день. Мы не можем предполагать, сколько это стоит, но кто-то другой написал здесь (подсказка: это очень много!)
Вам также понадобится команда экспертов… но не обязательно сотни! Mixture от Mistral AI превзошел GPT3.5 (согласно тесту Mistral AI) при команде численностью менее 20 человек.
Также потребуется много данных: для этого вам, возможно, придется порыться в Интернете или обратиться за помощью к партнерству. Затем данные необходимо будет подготовить, т.е. очистить и дедуплицировать.
Наконец, вам понадобится много вычислительной мощности! Если мы посмотрим на этот график NVIDIA:

… мы видим большой скачок между A100 и H100 (время обучения от одного месяца до одной недели для самых больших моделей).

Как работать с большим количеством данных
Наши клиенты Superpod используют Spark для подготовки данных, который использует ЦП (около 10 000 виртуальных ЦП) и около 100 ТБ блочного хранилища, прежде чем набор данных будет сохранен в объектном хранилище. Кстати, Scaleway в настоящее время работает над предложением управляемого кластера Spark: следите за этим!

NVIDIA также предоставляет такие инструменты, как NeMo data Curator (через NGC/Nvidia AI Enterprise, поэтому мы говорим о контейнерах), который имеет такие функции, как загрузка данных и извлечение текста, переформатирование и очистка текста, фильтрация качества, дедупликация на уровне документа и т.д. многоязычная дезактивация последующих задач и многое другое.

Даже с использованием этих инструментов подготовка данных может занять много времени, но ее необходимо сделать до начала обучения.

Как начать обучение
Чтобы начать обучение, вам понадобится более одного графического процессора, поэтому строительными блоками будут NVIDIA DGX H100 — готовые к использованию компьютеры с установленной максимальной конфигурацией сервера, так что вы получите лучшее из лучшего:
  • 8 графических процессоров NVIDIA H100 емкостью 80 ГБ и 640 ГБ общей памяти графического процессора
  • 18 подключений NVIDIA NVLink на каждый графический процессор
  • 900 гигабайт в секунду двунаправленной пропускной способности между графическими процессорами благодаря NVLink
  • 4x NVIDIA NVSwitch™
  • 7,2 терабайта в секунду двунаправленной пропускной способности между графическими процессорами
  • В 1,5 раза больше, чем предыдущее поколение
  • 10 сетевых интерфейсов NVIDIA ConnectX-7, 400 гигабит в секунду
  • 1 терабайт в секунду пиковой пропускной способности двунаправленной сети
  • Два процессора Intel Xeon Platinum 8480C, всего 112 ядер и системная память объемом 2 ТБ.
  • SSD-накопитель NVMe емкостью 30 терабайт — высокоскоростное хранилище для максимальной производительности.

Чтобы построить Superpod, вы берете этот сервер, а затем объединяете 32 из них, ни больше, ни меньше. Это то, что NVIDIA называет масштабируемой единицей. Если вы увеличите четыре масштабируемых устройства, у вас будет 128 узлов, и это будет система SuperPOD H100. Каждый из четырех блоков имеет производительность 1 экзафлопс в формате FP8, что в общей сложности составляет до 4 эксафлопс в формате FP8, а кластер управляется NVIDIA Base Command Manager, поэтому программное обеспечение NVIDIA с оркестратором SLURM позволяет запускать задания на нескольких компьютерах для провести обучение.

Итак, в Scaleway у нас есть два суперкомпьютера:
Jeroboam, уменьшенная версия кластера, предназначенная для обучения написанию кода с несколькими графическими процессорами и несколькими узлами:
  • 2 узла NVIDIA DGX H100 (16 графических процессоров Nvidia H100)
  • До 63,2 PFLOPS (тензорное ядро ​​FP8)
  • 8 графических процессоров Nvidia H100 80 ГБ SXM с NVlink до 900 ГБ/с на узел
  • Двойной процессор Intel Xeon Platinum 8480C (всего 112 ядер с частотой 2 ГГц)
  • 2 ТБ оперативной памяти
  • 2x NVMe по 1,92 ТБ для ОС
  • NVMe емкостью 30,72 ТБ для временного хранилища
  • Пропускная способность (для 2 DGX): до 40 ГБ/с при чтении и 30 ГБ/с при записи.
  • Сеть межсоединений графических процессоров Nvidia Infiniband со скоростью до 400 Гбит/с (на уровне кластера)
  • Высокопроизводительное хранилище DDN емкостью 60 ТБ с низкой задержкой.

Nabuchodonosor, «настоящая вещь» для обучения, которая также создана для людей, которые хотят обучать LLM с помощью видео, а не только текста, благодаря большому объему высокопроизводительного хранилища…
  • 127 узлов NVIDIA DGX H100 (1016 графических процессоров Nvidia H100)
  • До 4 EFLOPS (тензорное ядро ​​FP8)
  • 8 графических процессоров Nvidia H100 80 ГБ SXM с NVlink до 900 ГБ/с на узел
  • Двойной процессор Intel Xeon Platinum 8480C (всего 112 ядер с частотой 2 ГГц)
  • 2 ТБ оперативной памяти
  • 2x NVMe по 1,92 ТБ для ОС
  • NVMe емкостью 30,72 ТБ для временного хранилища
  • Сеть межсоединений графических процессоров Nvidia Infiniband со скоростью до 400 Гбит/с (на уровне кластера)
  • 1,8 ПБ высокопроизводительного хранилища DDN с низкой задержкой
  • Пропускная способность (для 127 DGX): до 2,7 ТБ/с при чтении и 1,95 ТБ/с при записи.

Обучение LLM


Проблема обучения LLM Nabuchodonosor заключается в том, что это пользовательский опыт HPC, что означает работу SLURM, а не Kubernetes. Однако это по-прежнему контейнеры, которые вы создаете поверх образов контейнеров NVIDIA NGC (Pytorch, Tensorflow, Jax…). Вот почему, когда вы пишете свой код с этими изображениями NGC, даже с одним небольшим графическим процессором, ваш код сможет легче масштабироваться. Одна из лучших практик — если у вас, скажем, 100 узлов, не запускайте задания на всех из них. Сохраните несколько запасных на случай, если один или два графических процессора выйдут из строя (такое случается!) Таким образом, если у вас возникнут какие-либо проблемы, вы сможете перезапустить свою работу, заменив неисправные узлы.

Вам нужно будет писать свой код особым образом, чтобы максимизировать производительность за счет использования параллелизма данных и параллелизма моделей (одновременные вычисления на нескольких графических процессорах); для этого вы можете использовать такие ресурсы, как Deepspeed.

Еще есть комплексная платформа Nvidia NeMo, которая также поможет вам создавать, настраивать и развертывать генеративные модели искусственного интеллекта.


Суперкомпьютеры Scaleway были построены всего за три-семь месяцев, поэтому обеспечить своевременную доставку всех компонентов и их правильное подключение с помощью более чем 5000 кабелей было непростой логистической задачей!

Обеспечение электропитанием также является довольно сложной задачей: энергопотребление системы Nabuchodonosor Superpod составляет 1,2 МВт, а это означает, что мы можем разместить только два блока DGX в каждой стойке, так что это не очень эффективное использование площади центра обработки данных. Еще есть стоимость электроэнергии, которая, например, во Франции в пять раз выше, чем в США. Но поскольку углеродоемкость французской электроэнергии очень низкая, она генерирует примерно в семь раз меньше выбросов, чем, например, в Германии. Более того, поскольку все машины искусственного интеллекта Scaleway размещены в DC5, который не имеет кондиционера и, следовательно, потребляет на 30–40% меньше энергии, чем стандартные центры обработки данных, мы можем сказать, что это одна из самых устойчивых установок искусственного интеллекта в мире. Подробнее об искусственном интеллекте и устойчивом развитии здесь.

Что дальше?


В этом году Scaleway выпустит суперчипNVIDIA GH200 Grace Hopper, который сочетает в себе процессоры Grace ARM и графические процессоры Hopper в одном устройстве, которые связаны со скоростью 900 ГБ/с. Вы можете соединить 256 таких устройств вместе, что намного больше, чем вы можете подключить в конфигурации DGX, описанной выше (8 графических процессоров, подключенных со скоростью 900 ГБ/с с помощью NVlink в одном серверном узле DGX H100). А если вам нужно больше, вы даже можете подключить несколько ячеек 256 GH200 через Infiniband со скоростью 400 Гбит/с. Так что это действительно для случаев использования, где память является узким местом, поэтому это действительно для HPC и для вывода LLM. Когда они все собраны вместе, это похоже на гигантский графический процессор, предназначенный для самых требовательных случаев использования, например, в здравоохранении и науках о жизни.