Сколько стоит инференс LLM: считаем на реальном примере

Мы опубликовали новую статью в блоге с разбором экономики AI-инфраструктуры для бизнеса в Центральной Азии. Для теста мы запустили инференс Qwen3-32B на двух конфигурациях GPU и посчитали стоимость результата.
Главный вывод: две карты среднего сегмента (2×A5000) в нашем сценарии обработали 1 млн токенов в 3,6 раза дешевле, чем премиальная A100. Номинальная мощность GPU не всегда означает лучшую экономику — решают модель, квантизация и пайплайн.

Материал будет полезен техническим директорам, ML-инженерам и руководителям AI-проектов на этапе пилота.
servercore.com/ru/blog/articles/ai-infrastructure-central-asia/
0 комментариев
Вставка изображения
Оставить комментарий