Все ожидали, что следующим большим релизом DeepSeek станет долгожданная модель R2. Возможно, это будет серьёзный рывок в развитии интеллектуальных возможностей современных китайских моделей. Однако компания пошла по другому пути и представила рядовое обновление – версию V3.1. Его развертывание прошло тихо – без анонсов и публикаций в соцсетях компании.
По данным Financial Times, выпуск R2 пришлось отложить из-за затянувшихся проблем с ИИ-чипами.
СМИ сообщают, что DeepSeek рекомендовано использовать чипы Ascend, чтобы снизить зависимость от Nvidia. Такой подход соответствует национальной стратегии Китая по развитию самодостаточного ИИ. Однако, несмотря на поддержку инженеров Huawei, обучение на Ascend оказалось проблемным: мешали проблемы совместимости и более низкая производительность. В итоге компания перешла на графические процессоры Nvidia для обучения, оставив Ascend лишь для инференса. Такая гибридная схема только усложнила процесс и привела к новым задержкам. Дополнительным фактором стало медленное проведение разметки данных, из-за чего разработка продвигалась ещё медленнее. По данным зарубежных источников, основатель DeepSeek Лян Вэньфэн открыто выражал недовольство слишком медленным прогрессом.
Зато обновление V3.1 принесло сразу несколько заметных улучшений.
Главное новшество – существенно увеличенная длина контекста: теперь модель способна работать с объёмами текста, сопоставимыми с целой книгой до 400 страниц. Кроме того, V3.1 показала ощутимый рост точности в решении математических и логических задач. Улучшены возможности модели в программировании.
Ещё одно важное изменение – DeepSeek убрала все упоминания модели R1 из интерфейса своего чат-бота. Это сигнализирует о переходе к единой гибридной архитектуре: теперь возможности логического рассуждения интегрированы прямо в V3.1, без отдельной вспомогательной модели. Предположим, это делано с целью экономии ресурсов.

