在中美 AI 竞争不断升温的背景下,中国人工智能初创公司 DeepSeek 推出了其基础模型 V3 的更新版本——V3.1。但与此同时,原先在其聊天机器人中用于支持推理功能的 R1 模型被悄然移除,这一变化在业内引发了关于下一代 R2 模型是否已经搁置的猜测。
据悉,DeepSeek 于本周二通过一个 WeChat 用户群发布了 V3.1 模型的简要更新通知,称该版本的上下文窗口扩大至 128k,相当于模型在单次对话中可保留大约 300 页文本的信息。这一升级对支持复杂任务和长篇内容处理尤为关键。
然而,该更新并未在 DeepSeek 的公开社交媒体账号(如 X 平台)上公布,更显低调。此外,DeepSeek 还在聊天机器人中的“深度思考”功能页面删除了所有关于 R1 推理模型的描述,这引发外界对于其 R2 模型开发进度的质疑。
从开源先锋到节节败退:DeepSeek 正失去领先优势?
DeepSeek 最初由量化交易公司创始人梁文峰创办,作为一项副业在 2023 年末迅速走红。去年 12 月,V3 模型正式亮相,随后在今年 1 月推出的 R1 推理模型更是激发了中国 AI 开源热潮。
但自那以来,该公司便未公布任何新模型的开发时间表,也未透露其研发方向。目前为止,DeepSeek 仍主要提供文本生成能力,尚未向多模态或高级编程领域拓展。
与此同时,大型科技企业如阿里巴巴加快了对开源 AI 模型的布局。其 Qwen 系列模型迅速在企业级市场获得关注与应用,MoonShot AI 的 Kimi-K2-Instruct 模型也在全球范围内获得大量使用者。
根据中国云计算平台 PPIO 提供的数据,DeepSeek 在今年第一季度占据超过 99% 的开源 AI 模型使用份额,但至 6 月已下降至约 80%。而在 5 月底,阿里 Qwen 模型的使用量首次超越 DeepSeek。
V3.1:小幅升级,反响不一
V3.1 是 V3 自 3 月以来的首个主要版本更新,现已上线 Hugging Face。第三方评测显示,该版本在编程能力方面有所提升。
在 Aider Benchmark 编程能力测试中,V3.1 被评为中国系统中表现最优的模型,但与 Claude Opus 4 等国际顶级 AI 编码模型相比,仍有不小差距。
不过,用户反馈褒贬不一:
- 南京的计算机科学研究者刘聪指出,V3.1 在推理能力方面并无明显提升,与 R1-0528 模型相比表现持平。他推测,V3.1 更像是一个兼顾推理与非推理任务的混合模型。
- Hugging Face 用户 “smile1030” 则表示,文本生成质量有所下降,对更新效果表示失望。
R2 遇阻?技术问题与硬件依赖成绊脚石
据《金融时报》上周报道,DeepSeek 原计划在今年夏季推出的 R2 模型目前已被延后,原因是在使用华为 Ascend AI 芯片进行训练时遭遇持续性技术问题。该报道称,一位未具名消息人士透露,DeepSeek 团队在整个训练过程中遇到了多项“难以解决”的工程瓶颈。
相比之下,DeepSeek 原始 V3 模型是基于 2,048 枚 Nvidia H800 GPU 进行训练的,而转向国产硬件似乎成为其研发进度放缓的一个关键障碍。
总结:下一步仍是未知数
DeepSeek 未就此次更新或 R2 模型的延迟做出公开回应。然而,随着竞争对手不断发布多模态、更强编码能力的模型,这家曾被视为中国开源 AI 崛起象征的公司,如今正面临前所未有的压力。
在 AI 竞争进入下半场之际,DeepSeek 的未来将取决于其是否能及时解决硬件适配问题、明确产品路线,并重拾曾经在开源社区中的技术影响力。R2 模型是否还会如期而至,或许将成为衡量这家初创公司能否继续参与全球 AI 竞赛的关键信号。