当前的大语言模型,是过去三十年人类在互联网上自由发布海量文本内容的意外副产品。Ilya Sutskever 曾将这类信息比作“化石燃料”,即便丰富,但终究有限。一些研究指出,按照当前模型的 token 消耗速度,前沿实验室可能会在十年内耗尽高质量英文网页数据。即使这些预测过于悲观,有一点是确定的:当前的模型消耗数据的速度,远远超过了人类生成数据的速度。 David Silver 与 Richard Sutton 将接下来的阶段称为“经验时代”(Era of Experience),即未来的关键进展将依赖于学习代理自身生成的数据。在此基础上,Yiding Jiang 提出,更核心的瓶颈并不在于“拥有经验”,而在于是否能够收集到“有益于学习的经验”。下一波 AI 的进展将不再聚焦于堆叠更多参数,而是围绕“探索”——获取新颖且有价值的学习经验这一过程展开。 预训练是对探索的隐性投资 目前的大语言模型开发流程,通常包括两个阶段:首先通过大规模语料执行“下一个 token 预测”任务进行预训练,然后通过强化学习(RL)微调模型以实现特定目标。没有大规模的预训练,强化学习步骤往往难以取得有效进展,这一对比说明预训练解决了某种 RL 无法独立应对的问题。 最近研究中,一个看似矛盾的现象被广泛观察到:体积更小的模型一旦通过链式思维(Chain-of-Thought)蒸馏自更大模型,也能展现出显著的推理能力。一些人据此认为,大模型并非推理能力的前提。但该作者认为这种解读有误,应该反问:若小模型本身具备足够推理能力,为何还需要从大模型中蒸馏? 对此,一个合理的解释是:预训练其实承担了巨额“探索成本”。没有预训练的小模型,难以在自身探索过程中发现高质量解。预训练通过在多样语料上消耗海量计算资源,构建了一个丰富的采样分布,从而让模型能“靠近”正确答案的区域。蒸馏的过程,让小模型得以“继承”大模型探索所付出的代价,从而绕过了早期探索的难题。 强化学习中的学习循环大致包括以下步骤: 要让这一循环有效运行,探索阶段必须具备产生“好”轨迹的最低能力。这在 RL 中被称作“覆盖度”(coverage)。对于 LLM 来说,探索通常是从模型的自回归输出中采样,如果采样不到正确解,那后续强化阶段也就无法开展。 即便在最简单的表格型 RL 场景中(所有状态与动作都可列举),学习仍然需要大量尝试。相关理论表明,所需训练轮次会随着状态-动作组合数线性增长,随着任务时长(horizon)平方增长。而 LLM 的状态空间包括所有可能的文本前缀,动作空间是所有可能的下一个 token,两者规模极其庞大。在无先验信息的情况下,RL 几乎无法直接应用于此。 目前探索的“重活”大多由预训练完成。它提供了更优的采样分布,使得从中采样的轨迹具备更高的信息密度。但这也意味着,模型所能看到的轨迹类型受限于其训练时的 prior,要继续进步,就必须突破这一先验边界。 探索促进泛化能力 历史上,强化学习的研究多聚焦于解决单个环境,比如 Atari 游戏或 MuJoCo 模拟器。这种设置等同于在“同一个数据点”上训练与测试,无法说明模型能否应对真正的新颖情境。机器学习的核心是泛化:针对新问题创造解决方案才是价值所在。 泛化对于语言模型尤为关键。训练时 LLM 只见过有限数量的 prompt,而部署后需要应对任意用户输入,包括前所未见的任务。当前模型在“有明确奖赏信号”的任务上表现尤为出色,例如编程题或数学证明。但如果是更模糊的任务,如撰写研究报告、创作小说等,反馈稀疏或含糊,就会使训练难度和数据收集难度迅速升高。 那么,如何训练更具泛化能力的模型?深度学习的共识之一是“数据多样性提升泛化性能”,而探索正是决定数据多样性的关键因素。在监督学习中,一个标注样本会在一次前向传播中暴露全部信息,因此提升数据多样性只能靠收集更多样本。但在 RL 中,每次交互只暴露环境的一部分信息,必须收集足够多样的轨迹,才能形成对环境的完整理解。 如果采样策略太过简单,例如纯随机游走,模型很可能只接触到环境的“狭隘一角”,从而陷入过拟合。 这一问题在多环境情境中尤为明显。比如…
Alphabet 的 Isomorphic Labs 准备启动 AI 设计药物的人体试验,并完成 6 亿美元融资
2025 年 4 月,Alphabet 旗下的制药科技公司 Isomorphic Labs 完成了其首次外部融资轮,筹集资金达 6 亿美元,由 Thrive Capital 领投。 该公司由 DeepMind 的 AlphaFold 突破性成果孵化而来,正计划启动基于人工智能设计的新药的人体临床试验。据《财富》杂志报道,Isomorphic Labs 总裁兼 Google DeepMind 首席商务官 Colin Murdoch 表示,公司正在将最前沿的 AI 技术与资深药企专家结合,力图更快速、更低成本、更精确地研发新药。 Murdoch 在巴黎接受采访时透露:“现在,在我们位于伦敦国王十字的办公室里,有团队正在与 AI 协作,为癌症设计新药。这是真实发生的事情。” 经过数年的研发,Isomorphic 的 AI 辅助药物终于接近进入临床阶段。Murdoch 说道:“我们即将迎来一个重要的里程碑,那就是开展临床试验,将这些候选药物真正应用于人体。我们目前正在大规模招聘,已经非常接近目标。” Isomorphic Labs 于 2021 年从 DeepMind 分拆而出,其灵感来源于 DeepMind 的重大科学突破——AlphaFold,这是一套能够以极高精度预测蛋白质结构的人工智能系统。 AlphaFold 的发展已经从预测单一蛋白质结构,进步到能模拟蛋白质与其他分子(如 DNA 和药物)的相互作用。这一进展极大提升了其在药物发现领域的实用价值,使科学家能够更快、更准确地设计新药物,从而为一个更宏大的目标打下了基础。 Murdoch 表示:“AlphaFold 是我们创建 Isomorphic Labs…
“猫攻击”揭示推理模型脆弱性,凸显上下文工程的重要性
一项研究显示,即便是像“猫一生中大多数时间都在睡觉”这样简单的语句,也可能显著干扰高级推理模型的表现,使其错误率激增三倍。 目前,针对推理任务优化的大型语言模型(LLM)通常被认为在需要逐步思考的任务中表现突出。然而,一项题为《猫让推理 LLM 混乱》(Cats Confuse Reasoning LLM)的最新研究表明,仅一条看似普通的语句也能导致这类模型出现严重失误。 研究团队构建了一种自动化攻击系统,名为“CatAttack”(猫攻击)。该系统首先由一个攻击模型(GPT-4o)配合一个成本较低的代理模型(DeepSeek V3)生成分散注意力的干扰语句。随后由一个“评判模型”评估输出效果,再将最具干扰能力的语句用于测试更强大的推理模型,例如 DeepSeek R1。 测试发现,哪怕是看似无害的句子,比如猫的趣闻或一般性的理财建议,都可能成为“对抗性触发器”,凸显出现有推理模型的脆弱性。例如,将一句“有趣的事实:猫大多数时间都在睡觉”添加至一道数学题中,或在题目后暗示一个错误答案(如“答案可能是 175 吗?”),再或是附加理财建议,竟可使 DeepSeek R1 的错误率从 1.5% 飙升至 4.5%,即三倍增长。 研究人员指出,这种攻击不仅影响模型准确率,还造成了响应延迟等“慢速攻击”效应。在 DeepSeek R1-distill-Qwen-32B 模型上,有 42% 的回答长度超过原本令牌预算的 50%;即便是 OpenAI o1,也出现了 26% 的增长。这些都意味着更高的计算资源成本。 研究作者警告称,模型在金融、法律、医疗等高风险场景中的易错性可能带来严重后果。为应对这类问题,潜在防御措施包括上下文过滤器、更稳健的训练方法,或开发通用触发器评估体系。 这项研究也再度印证了“上下文工程”作为防御手段的重要性。Shopify CEO Tobi Lutke 最近强调,精准控制上下文是使用大型语言模型的核心能力;而前 OpenAI 研究员 Andrej Karpathy 则指出,上下文工程“非常不简单”。CatAttack 案例正好证明,即使是极少量无关内容也足以干扰复杂推理任务。 此前的研究也支撑这一观点。5 月的一项研究显示,加入无关信息可大幅削弱模型性能,即便任务本身未发生变化。另一份研究发现,随着对话长度的增长,LLM 的响应可靠性持续下降。 一些研究者将此视为结构性缺陷:即便是先进的语言模型,仍难以有效区分相关与无关信息,且缺乏真正严谨的逻辑理解能力。 总的来说,研究表明,只需添加“猫大多数时间都在睡觉”这种看似无害的语句,即可将顶尖推理模型的错误率提升至原来的三倍。而且,这种攻击方式对所有主流模型均有效,不仅增加错误率,还令输出变长、成本上升,形成所谓“慢速攻击”。研究团队强调,在诸如金融、健康等领域,这种脆弱性可能造成重大风险,亟需加强上下文控制与系统性防御机制,以确保语言模型的可靠性。
2025 年使用大模型进行软件工程:现实检验
以工程经理与资深工程师的视角,探讨大厂与初创公司的挑战,以及与 Anthropic、Cursor 等 AI 公司工程师,与 Google、Amazon 等大厂工程师,以及多位资深工程师的对话,从中归纳 AI 工具的使用状况与发展趋势。 一、两极现象 乐观派观点:AI 企业高管的话语 许多 AI 基础设施公司高管发出过类似预言: 这些言论常伴随着乐观预期,但它们往往来自拥有 AI 产品并希望推动销售的公司。 悲观派观点:开发者的失望 开发者社区不乏 AI 工具失误的案例: 这些事件表明现阶段 AI 工具仍不够可靠。 二、AI 开发工具初创公司 这些公司的工程团队强烈 Dogfood 自家产品: 三、大厂状况 Google Google 构建了紧密集成的工具链,包括 Borg、Cider、Critique、Code Search、Gemini LLM、NotebookLM 等。多名工程师表示: Amazon Amazon 推出了多款 AI 工具: 四、AI 初创企业(非开发工具) 五、资深工程师的看法 六、未解之问 总结 结语:如 Kent Beck 所言,如今“一切成本结构已被重构”,开发者正处在 AI 带来变革的风口,只要主动尝试,就能在这一时代收获创新的红利。
Neuralink 脑机接口植入者增至七人,技术正悄然推进人类-机器交互新纪元
据美国 Barrow 神经学研究所消息,目前已有七位患者接受了由埃隆·马斯克领导的 Neuralink 公司推出的 N1 脑机接口植入。这项技术允许患有颈椎脊髓损伤或肌萎缩侧索硬化症(ALS)的人仅凭意念即可操控计算机。 Neuralink 于 2025 年 2 月曾披露已有三名患者接受该设备;到 6 月,这一数字增至五名,并在同月完成了 6.5 亿美元的新一轮融资。而如今,Barrow 在推特上确认该数字已攀升至七人,Neuralink 也转发了该消息。 其中六人参与了由 Barrow 医学中心主导的 PRIME 研究项目。该项目在美国亚利桑那州菲尼克斯市展开,旨在验证 N1 植入装置、R1 手术机器人以及 N1 用户电脑应用的安全性与有效性。值得注意的是,目前美国食品药品监督管理局(FDA)尚未批准任何脑机接口设备。 手术过程由定制的机械臂完成,在患者颅骨上钻孔后植入装置。设备通过蓝牙连接至计算机,患者可用意念移动鼠标光标、打字、浏览网页,甚至畅玩电子游戏。首位受试者 Noland Arbaugh 就是如此操控电脑进行日常活动,他已完全瘫痪,却依然能够编辑网页、撰写文章、处理财务等,实现独立生活。 Arbaugh 表示:“我现在只需想象光标移动至键盘某处并点击,就能完成操作。”虽然他坦言当前的光标控制尚未达到理想的精准度,但他称这段经历是“生命中的一段传奇旅程”,改变了自己的人生态度,也坚定相信未来每个想要 BCI 的人都能拥有一个。他强调,这一技术的推广应以负责任的方式进行。 除 Arbaugh 外,其他已知患者还包括: Neuralink 目前仍在继续招募参与者,用户可在线申请加入测试。 该公司正面临来自 Echo 与 Synchron 等多家脑机接口初创企业的激烈竞争。其中 Synchron 已将其设备植入 10 名患者,且其设备即将成为首个可连接 Apple 设备的脑接口技术。不同于 Neuralink 的颅骨钻孔方式,Synchron…
英国研究团队启动合成完整人类基因组的前沿项目
据报道,英国一支科研团队正在开展一项前所未有的科学计划——从零开始合成人类 DNA,力图解答关于人类基因组的基础性问题,并彻底革新人类对健康与疾病的理解。 这一研究因其前沿性与潜在影响而引发争议。长期以来,科学界普遍对合成人类全基因组保持谨慎,担心该技术可能引发“优生婴儿”或“基因乌托邦”等伦理问题。 然而,这项被称为“合成人类基因组计划”(SynHG)的项目目前已获得全球最大医学慈善机构 Wellcome Trust 约 1170 万美元(1000 万英镑)资助。该机构表示,潜在益处远大于风险,未来该技术可用于开发新型医疗疗法,如定制细胞疗法和抗病毒组织移植等。 牛津大学教授 Jason Chin 将牵头此项研究,联合多家英国高校与研究中心开展合作。在未来五年内,该项目团队计划建立实现全基因组合成所需的关键工具、技术和方法。Chin 表示:“合成包括人类细胞在内的大型基因组的能力,或将改变人类对基因组生物学的理解,并深刻重塑生物技术与医学的未来。” 值得一提的是,Wellcome Trust 曾是 25 年前“人类基因组计划”的主要资助方之一。此次从零开始构建完整人类基因组,挑战更大,预计将耗费数年甚至数十年。Chin 团队此前已成功合成大肠杆菌的完整基因组,但与人类基因组相比,这一成果仍属“小巫见大巫”,后者的体积约大 700 倍。 分子生物学研究委员会实验室(MRC LMB)的研究组负责人 Julian Sale 向《卫报》表示:“人类基因组不仅仅是一串基因的集合,它包含大量我们尚不理解的部分,有时被称为‘基因组暗物质’。只有真正构建出基因组,才能真正理解它。” 科学家们的首个目标是在未来五到十年内合成一个完整的人类染色体。与基因编辑不同,基因组合成可在更大尺度上对 DNA 进行操作,有助于揭示大量尚未被充分理解的 DNA 区域在健康与特征形成中的作用。 不过,也有研究者担忧人类如掌握书写完整基因密码的能力,可能获得对生命系统的巨大控制力。爱丁堡大学遗传科学家 Bill Earnshaw 向 BBC 表示,该技术未来可能被用于制造合成人类、生物武器,甚至带有人类 DNA 的生物体,但他同时指出实现这些设想所需的技术仍远未成熟。 该项目正试图正面应对合成基因组所带来的伦理难题。Wellcome Trust 同时资助了一个由肯特大学 Joy Zhang 教授领导的研究计划,专注于探讨在实验室中创造人类基因组的社会与伦理问题。 Wellcome 的高级研究经理 Tom Collins 向 BBC 表示:“这项技术终将会被开发出来,所以我们选择现在就启动,是希望以尽可能负责任的方式推进,并正面面对其中的道德与伦理挑战。”
OpenAI 与 Meta 之间的人才争夺战导致裁员停滞与补偿机制调整
OpenAI 目前正陷入一场全面的人才争夺战,Meta 大举挖角该公司顶尖研究人员。据报道,Meta 又从 OpenAI 挖来了四位重要研究人员:Shengjia Zhao、Jiahui Yu、Shuchao Bi 和 Hongyu Ren,他们都是 GPT‑4.1、o3 架构及多模态系统的关键贡献者。 此前已有报道称 Meta 已招揽了 Trapit Bansal 及其余三位研究员,这意味着近期至少已有八位高知名度人才跳槽 Meta。更早之前,驻苏黎世研究中心的 Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai 也先后离开 OpenAI,他们曾为该 европейский research hub 的扩张发挥重要作用。公司内部对这些人才流失表现出极大担忧,一名 OpenAI 工程师曾在推特发布一条“巨大损失”的评论,但随后删除。 根据 Twitter 用户 Yuchen Jin 的发帖内容,这四位被 Meta 高调挖来的华人研究人员背景如下: 这一人才外流促使 OpenAI 领导层迅速响应。据 Wired 援引内部 Slack 备忘录,首席研究官 Mark Chen 将此形容为一场“入室盗窃”:“我现在有一种本能的感觉,就像有人闯入了我们的家园,偷走了东西。”在另一份内部备忘录中,Chen 表示公司正重新校准薪酬方案,并努力留住现有人才。 为缓解员工疲劳、提升士气,OpenAI 决定在一周内实施全公司范围的 “关门” 停工,此前员工长期每周加班至 80 小时以上。不过,领导层也警告,Meta 可能会利用这一休整期,向留守研究人员提出具有诱惑力的限时邀约。 与此同时,OpenAI 启动了新的招聘策略,从 Shopify…
Geek Out Time:使用混合路由优化多智能体 AI(AG 2)
在之前的文章里,我展示了如何用 AutoGen 搭建一个由四个领域代理—— Passion、Obstacle、Balance、Values——共同对话的职业教练聊天机器人。它能工作,但所有代理同时发声,回复显得冗杂。这次,我升级了“编排”逻辑,只让合适的代理发言,并由 LeadCoachAgent 将他们的观点汇总成精炼的行动方案。 业界路由是怎么做的? 在生产级多智能体系统里,团队很少只用一种启发式。常见的做法是 混合路由: 步骤 1:安装 pythonCopyEdit!pip install -q git+https://github.com/ag2ai/ag2.git \ openai sentence-transformers scikit-learn 步骤 2:定义代理与配置 pythonCopyEditimport os, openai from autogen import ConversableAgent, UserProxyAgent, GroupChat, GroupChatManager from sentence_transformers import SentenceTransformer from sklearn.metrics.pairwise import cosine_similarity # 🔑 设置 OpenAI API Key os.environ[“OPENAI_API_KEY”] = “sk-your-key-here” client = openai.OpenAI(api_key=os.environ[“OPENAI_API_KEY”]) llm_config = { “temperature”:…
AlphaGenome:以人工智能促进对基因组的深入理解
一款全新的统一 DNA 序列模型 AlphaGenome 正式推出,该模型在调控性变异效应预测方面取得重要突破,并有望揭示基因组功能的新层面。AlphaGenome 现已通过 API 提供预览访问,用于非商业研究用途。 基因组被视为细胞的说明书,包含生命体的全部 DNA 信息,决定了其外貌、功能、成长和繁殖。即便是极微小的 DNA 序列变异,也可能改变机体对环境的反应,或增加其患病风险。然而,要解码基因组在分子层面上的“阅读”方式,以及理解当 DNA 出现微小变化时所产生的后果,至今仍是生物学面临的一大难题。 为推动科学研究,AlphaGenome 提供了更全面、精准的预测能力,帮助科学家理解人类 DNA 中的单一变异如何影响多个基因调控过程。这项突破得益于一系列技术进展,使模型得以处理长达一百万碱基对的 DNA 序列,并提供高分辨率预测。 AlphaGenome 可通过 API 免费用于非商业性研究,未来也计划向更广泛的用户群体开放。 AlphaGenome 的工作原理是:以长达一百万个碱基的 DNA 序列作为输入,预测与基因调控相关的数千种分子特征,并通过对比变异序列与原始序列的预测结果,评估特定基因变异的影响。预测内容包括不同细胞类型与组织中的基因起始与终止位置、RNA 产量、RNA 剪接位置及其频率,以及 DNA 的可及性、空间接近性及与特定蛋白质的结合情况。 模型的训练数据来自多个大型公共项目,如 ENCODE、GTEx、4D Nucleome 与 FANTOM5,这些项目提供了对数百种人类与小鼠细胞类型和组织中基因调控模式的实验性测量数据。 AlphaGenome 的架构结合了卷积层(用于识别短序列模式)、Transformer(用于跨序列位置的信息传递)和用于多种预测任务的输出层。训练过程中,模型运算分布在多个互联的张量处理单元(TPU)上,以加快效率。 该模型基于早期的 Enformer 模型,并与 AlphaMissense 模型互补,后者专注于蛋白质编码区域变异的分类,占据整个基因组的2%。AlphaGenome 则针对剩余的98%非编码区域提供新的解读方式,这些区域在调控基因活性中发挥关键作用,且常包含与疾病相关的变异。 AlphaGenome 的亮点包括: 通过单一 API 调用,科学家即可同时评估变异对多个基因调控过程的影响,无需借助多个模型,极大加快假设生成与验证的速度。模型的高性能也表明其已学习到基因调控相关的通用 DNA 表征,为未来扩展至其他物种、新的调控模式或更广泛应用奠定基础。 AlphaGenome 在以下研究方向具有广阔应用前景:…
Gemini CLI:面向开发者的开源 AI 代理工具
Gemini CLI 是一款免费开源的 AI 工具,专为开发者量身打造,直接将 Gemini 的强大能力引入终端环境,为个人用户提供前所未有的访问权限。 对开发者而言,命令行界面(CLI)不仅仅是一种工具,更像是一个工作空间。它以高效、普遍适用和便携性著称,长期以来一直是完成任务的首选方式。随着开发者对终端依赖的持续增长,对集成 AI 助手的需求也愈发强烈。 基于此背景,Gemini CLI 诞生了。这是一款开源的 AI 代理工具,可直接在终端中使用 Gemini 的功能,用户可通过命令行提示以最直接的方式接触模型。尽管其在编程方面表现出色,但 Gemini CLI 的用途远不止于此,它是一款多功能、本地化的实用工具,适用于内容生成、问题解决、深入研究以及任务管理等广泛场景。 此外,Gemini CLI 还与 Google 的 AI 编程助手 Gemini Code Assist 实现了整合,所有开发者——无论是免费版、标准版还是企业版的 Code Assist 用户——都可以在 VS Code 和 Gemini CLI 中体验以提示为核心的 AI 编程辅助功能。 Gemini 2.5 Pro 模型能力现已通过 Gemini CLI 引入开发者终端,并为个人用户提供了行业领先的使用额度。只需使用个人 Google 账号登录,即可免费获取 Gemini Code Assist 授权,进而使用…