AI 世界的擂台赛又来了,这周的主角是 Google DeepMind 的 Gemini 2.5 和中国开源猛将 DeepSeek V3.1,一边是技术天花板,一边是“跑得动”的平民之选,场面一度十分胶着。
先说 Gemini 2.5,这位“谷歌亲儿子”一登场就成了新一代基准测试之王,横扫 LM Arena 排行榜,直接拿下有史以来最高的涨幅——比 Grok-3 和 GPT-4.5 高出整整 40 分,简直是暴力碾压。数理科学方面同样吊打同行,在 GPQA 和 AIME 2025 上表现亮眼,还在 Humanity’s Last Exam 拿下 18.8% 的专家级分数(这考试难度堪比科研圈开卷地狱模式)。

而且它还带着逆天配置上线 Google AI Studio,免费使用,窗口上下文能装下 1M tokens(大约 70 万字),这可不是开玩笑,是开挂。
但另一边,来自中国的 DeepSeek V3.1 悄咪咪地在 Hugging Face 投下重磅炸弹,一个 641GB 的大模型,开源还送 MIT 商业许可,简直就是 AI 届的“开箱即用型打工人”。虽然速度谈不上快,每秒 20 个 token,不过人家能在 1 万刀的 Mac Studio 上稳定运行,已经相当硬核。
重点是,知名研究员 Xeophon 直接盖章:这是“目前表现最强的非推理类模型”,成功把 Claude Sonnet 3.5 按在地上摩擦。DeepSeek 还能通过自家云服务或者 OpenRouter 使用,体验门槛低到离谱。
更炸裂的是,据 01.AI 的李开复透露,中国在某些 AI 领域已经追到美国只差 3 个月!这速度震惊了不少西方技术观察者,尤其是当阿里、腾讯、百度等大厂接连开源模型,还基本都免费的时候,整个局势已经从“谁最聪明”,变成了“谁能最快塞进最多人手里”。
现在的 AI 大战,不是科幻片,而是现实版“全球速度与激情”。OpenAI 这周估计心情复杂,毕竟不是谁都能眼睁睁看着擂台被围攻,还得保持微笑。