开源 AI 竞赛再度升温,美国科技界正与中国的 DeepSeek 正面交锋。就在 DeepSeek 以低成本 AI 模型震惊硅谷的几天后,Allen Institute for AI(AI2)高调宣布,其新推出的开源模型在多个基准测试上可媲美甚至超越 DeepSeek V3 和 OpenAI 的 GPT-4o。
这款新模型是 AI2 去年 11 月发布模型的升级版,参数量从 70 亿激增至 4050 亿,规模扩大近六倍。DeepSeek 的成功让开源 AI 站上聚光灯,而 AI2 也希望借此证明,美国的开源 AI 团队同样能在开放与封闭模型的性能差距上迎头赶上。
AI2 资深 NLP 研究主管 Hannaneh Hajishirzi 在接受 Tech Brew 采访时表示,美国本土的开源大模型屈指可数,主要有 AI2 的这款模型、Meta 的 Llama 以及少数几个其他项目。因此,这次 AI2 证明了,只要采用他们的训练方法,开源模型也能缩小差距,甚至超越 DeepSeek V3。
强化学习之争:谁学了谁?
AI2 的模型采用了一种新的强化学习技术,通过“奖励”正确答案、“惩罚”错误答案的方式训练模型解决数学或逻辑推理问题。而 DeepSeek 也使用了类似的强化学习方法训练其推理能力,甚至相似度高到让 Hajishirzi 都忍不住调侃:“这几乎可以说是一模一样的。”她还补充道:“我们的研究论文去年 11 月就发布了,而 DeepSeek 之后才推出他们的模型。有人问我‘他们是不是直接复制了你们的做法?’我也不知道,也许只是巧合。但开源研究的特点就是很多想法会被共享。”
目前,很多大模型已经结合强化学习和人工评估,依靠人类评审者对输出质量进行评分。但 AI2 还在探索另一种方式——摆脱人类评审,让 AI 纯粹依靠强化学习进化,这种方法在机器人和自动驾驶领域已经相当成熟,但在 LLM 训练中仍属新鲜事物。
AI2 继续研究 DeepSeek,希望“取长补短”
虽然 AI2 认为自家模型已能与 DeepSeek V3 叫板,但他们也在密切研究 DeepSeek 的技术文档,试图找到可以借鉴的优化策略。Hajishirzi 透露,DeepSeek 在训练效率上的工程优化非常惊艳,目前 AI2 的工程师正仔细分析其技术细节,看看哪些方法可以应用到自家模型中。
此外,AI2 还在尝试将强化学习扩展到无法直接验证正确性的任务。例如,在涉及创造性或主观判断的任务上,如何衡量 AI 是否“成功”完成任务?Hajishirzi 认为,这是当前 AI 研究领域最令人兴奋的问题之一,很多团队都在探索新的评估方式。
随着 AI 越来越多地参与需要“推理链”的复杂任务,强化学习显然会成为 AI 训练的关键武器。这场开源 AI 竞赛,才刚刚开始。