DeepSeek R1 и V3: китайский Новый год ИИ начался рано
Если вы думаете, что празднование Нового года началось 1 января, то это зависит от того, как на это посмотреть — ведь в мире ИИ настоящий фейерверк прогремел в декабре с выпуском DeepSeek V3. Теперь DeepSeek R1 освещает небо сиянием с открытым исходным кодом, которое заставляет даже самых закоренелых гигантов Кремниевой долины почувствовать жар.
Рост DeepSeek
DeepSeek последовательно работает на моделях Mixture-of-Experts (MoE), которые эффективны и открыты. DeepSeek V2 был выпущен в мае 2024 года и представил интересную альтернативу Llama 3 70B. Его производительность на английском языке была немного ниже, чем у Llama, но V2 превзошел модель Meta на стандартных китайских тестах.
DeepSeek V3 сделал еще один шаг вперед, не только улучшив производительность, но и похваставшись в три раза более быстрым временем вывода. Он появился в декабре 2024 года и с тех пор вызвал резонанс в сообществе ИИ. Созданный на архитектуре MoE с колоссальным количеством параметров в 671 миллиард, V3 активирует всего 37 миллиардов параметров на токен, сохраняя как вычислительную нагрузку, так и потребление энергии на низком уровне по сравнению с другими альтернативами. Обученный на 14,8 триллионах высококачественных токенов с функцией Multi-Token Prediction для более высокой скорости вывода, DeepSeek V3 обрабатывает 60 токенов в секунду — в три раза быстрее своего предшественника. Он показывает тактовую частоту 88,5 на бенчмарке MMLU — немного меньше ведущего Llama 3.1, но превосходит таких известных конкурентов, как Qwen 2.5 и Claude 3.5 Sonnet. На бенчмарке DROP он достигает 91,6, демонстрируя внушительную способность к рассуждению (ты не должен обсуждать свои проблемы с рассуждениями LLM в этом посте; ты должен подождать отдельного). Если вы программист, обратите внимание: DeepSeek V3 превосходит Claude 3.5 Sonnet на Codeforces. Я знаю — я тоже любил свой Sonnet.
Доступность и открытость
Возможно, самой большой сенсацией является разрешительная лицензия DeepSeek V3 с открытым исходным кодом, позволяющая разработчикам свободно загружать, настраивать и развертывать модель — даже для коммерческих проектов. Эта открытая философия не только идеологическая; она также экономична. Обучение DeepSeek V3 обошлось примерно в 5,58 миллионов долларов за два месяца — это лишь малая часть того, что тратят некоторые крупные технологические компании. Внезапно у тяжеловесов с закрытым исходным кодом появился реальный конкурент, который может масштабироваться, не опустошая банковские счета. DeepSeek R1 добавляет оскорбления к ране, обойдя GPT-o1 по нескольким показателям (источник):
Количество данных преобладает над качеством данных
Тенденция, начатая Фи в Учебники — это все, что вам нужно наконец-то привело к широкому признанию: теперь, когда мы научились собирать огромные объемы данных, контроль качества данных стал настоящим секретом разработки современных моделей.
Это также одна из краеугольных идей проекта Pleias, соучредителем которого я являюсь. В 2024 году Pleias опубликовал Общий корпус — крупнейший открытый и разрешенный набор текстовых данных, включающий более 2 триллионов токенов. Однако именно обширная предварительная обработка, адаптированная для RAG, позволила Плея 1.0 семейство моделей, которые превзойдут свой вес на бенчмарках RAG. Надеюсь, позже я напишу несколько постов о предварительной обработке данных для «обмотки модели».
Бережливость — это новый тренд
Сообщество открытого исходного кода известно тем, что оно «бедно вычисляет», то есть ресурсы часто минимальны по сравнению с лабораториями с глубокими карманами. Но эта вынужденная бережливость может быть суперсилой: она стимулирует более эффективные алгоритмы, более простую архитектуру и экологичные оптимизации.
Интересное замечание: даже при постоянном повышении эффективности обучение гигантских моделей по-прежнему требует значительных затрат энергии. Это делает расположение и проектирование кластеров критически важными. Например, первый собственный центр обработки данных Nebius находится в Финляндии, где используется естественное воздушное охлаждение для сокращения расходов на электроэнергию и уменьшения выбросов углекислого газа — концепция, которую мы часто называем свободным охлаждением. Эта тенденция только усилится в 2025 году, поскольку все больше разработчиков и пользователей ИИ научатся делать больше с меньшими затратами.
По-настоящему открытый ИИ догоняет
Модели искусственного интеллекта закрытого типа в Кремниевой долине, эти «мамонты», оглядываются по сторонам. Появление DeepSeek V3 знаменует собой последний шаг в критическом сдвиге: ИИ с открытым исходным кодом больше не играет в догонялки; он медленно продвигается вперед по ключевым показателям и применимости в реальном мире.
Представляю вам Доказательство А: твиты Сэма Альтмана, намекающие на усиление конкуренции.
OpenAI, несомненно, изменил общественный консенсус относительно того, что возможно, но конкуренция усиливается, и слово «открытый» в его названии больше не является достаточным. Недавнее объявление Stargate контрастирует с бережливым подходом DeepSeek, который предоставляет полностью открытые модели за малую часть стоимости.
Если вы хотите разместить DeepSeek V3 в ЕС экономически эффективно, вы скоро сможете попробовать его в Небиус AI Студия и решите сами, как это сравнить с закрытыми альтернативами, используя игровую площадку студии. На этой неделе мы добавим и R1, и V3.
Дорога впереди
Можно с уверенностью сказать, что «китайский Новый год ИИ» начался с грохотом на целый месяц раньше в этом году. В конце концов, год Деревянной Змеи знаменует собой «время трансформации, роста и самоанализа». Это касается как начинающих стартапов, так и устоявшихся участников в области genAI. Вопрос уже не в том, догонит ли ИИ с открытым исходным кодом, а в том, как быстро он охватит поле — и кто сможет использовать его для наибольшего воздействия.
0 комментариев
Вставка изображения
Оставить комментарий