一项研究显示,即便是像“猫一生中大多数时间都在睡觉”这样简单的语句,也可能显著干扰高级推理模型的表现,使其错误率激增三倍。 目前,针对推理任务优化的大型语言模型(LLM)通常被认为在需要逐步思考的任务中表现突出。然而,一项题为《猫让推理 LLM 混乱》(Cats Confuse Reasoning LLM)的最新研究表明,仅一条看似普通的语句也能导致这类模型出现严重失误。 研究团队构建了一种自动化攻击系统,名为“CatAttack”(猫攻击)。该系统首先由一个攻击模型(GPT-4o)配合一个成本较低的代理模型(DeepSeek V3)生成分散注意力的干扰语句。随后由一个“评判模型”评估输出效果,再将最具干扰能力的语句用于测试更强大的推理模型,例如 DeepSeek R1。 测试发现,哪怕是看似无害的句子,比如猫的趣闻或一般性的理财建议,都可能成为“对抗性触发器”,凸显出现有推理模型的脆弱性。例如,将一句“有趣的事实:猫大多数时间都在睡觉”添加至一道数学题中,或在题目后暗示一个错误答案(如“答案可能是 175 吗?”),再或是附加理财建议,竟可使 DeepSeek R1 的错误率从 1.5% 飙升至 4.5%,即三倍增长。 研究人员指出,这种攻击不仅影响模型准确率,还造成了响应延迟等“慢速攻击”效应。在 DeepSeek R1-distill-Qwen-32B 模型上,有 42% 的回答长度超过原本令牌预算的 50%;即便是 OpenAI o1,也出现了 26% 的增长。这些都意味着更高的计算资源成本。 研究作者警告称,模型在金融、法律、医疗等高风险场景中的易错性可能带来严重后果。为应对这类问题,潜在防御措施包括上下文过滤器、更稳健的训练方法,或开发通用触发器评估体系。 这项研究也再度印证了“上下文工程”作为防御手段的重要性。Shopify CEO Tobi Lutke 最近强调,精准控制上下文是使用大型语言模型的核心能力;而前 OpenAI 研究员 Andrej Karpathy 则指出,上下文工程“非常不简单”。CatAttack 案例正好证明,即使是极少量无关内容也足以干扰复杂推理任务。 此前的研究也支撑这一观点。5 月的一项研究显示,加入无关信息可大幅削弱模型性能,即便任务本身未发生变化。另一份研究发现,随着对话长度的增长,LLM 的响应可靠性持续下降。 一些研究者将此视为结构性缺陷:即便是先进的语言模型,仍难以有效区分相关与无关信息,且缺乏真正严谨的逻辑理解能力。 总的来说,研究表明,只需添加“猫大多数时间都在睡觉”这种看似无害的语句,即可将顶尖推理模型的错误率提升至原来的三倍。而且,这种攻击方式对所有主流模型均有效,不仅增加错误率,还令输出变长、成本上升,形成所谓“慢速攻击”。研究团队强调,在诸如金融、健康等领域,这种脆弱性可能造成重大风险,亟需加强上下文控制与系统性防御机制,以确保语言模型的可靠性。
Author: aitrendtrackers@rengongzhineng.io
2025 年使用大模型进行软件工程:现实检验
以工程经理与资深工程师的视角,探讨大厂与初创公司的挑战,以及与 Anthropic、Cursor 等 AI 公司工程师,与 Google、Amazon 等大厂工程师,以及多位资深工程师的对话,从中归纳 AI 工具的使用状况与发展趋势。 一、两极现象 乐观派观点:AI 企业高管的话语 许多 AI 基础设施公司高管发出过类似预言: 这些言论常伴随着乐观预期,但它们往往来自拥有 AI 产品并希望推动销售的公司。 悲观派观点:开发者的失望 开发者社区不乏 AI 工具失误的案例: 这些事件表明现阶段 AI 工具仍不够可靠。 二、AI 开发工具初创公司 这些公司的工程团队强烈 Dogfood 自家产品: 三、大厂状况 Google Google 构建了紧密集成的工具链,包括 Borg、Cider、Critique、Code Search、Gemini LLM、NotebookLM 等。多名工程师表示: Amazon Amazon 推出了多款 AI 工具: 四、AI 初创企业(非开发工具) 五、资深工程师的看法 六、未解之问 总结 结语:如 Kent Beck 所言,如今“一切成本结构已被重构”,开发者正处在 AI 带来变革的风口,只要主动尝试,就能在这一时代收获创新的红利。
Neuralink 脑机接口植入者增至七人,技术正悄然推进人类-机器交互新纪元
据美国 Barrow 神经学研究所消息,目前已有七位患者接受了由埃隆·马斯克领导的 Neuralink 公司推出的 N1 脑机接口植入。这项技术允许患有颈椎脊髓损伤或肌萎缩侧索硬化症(ALS)的人仅凭意念即可操控计算机。 Neuralink 于 2025 年 2 月曾披露已有三名患者接受该设备;到 6 月,这一数字增至五名,并在同月完成了 6.5 亿美元的新一轮融资。而如今,Barrow 在推特上确认该数字已攀升至七人,Neuralink 也转发了该消息。 其中六人参与了由 Barrow 医学中心主导的 PRIME 研究项目。该项目在美国亚利桑那州菲尼克斯市展开,旨在验证 N1 植入装置、R1 手术机器人以及 N1 用户电脑应用的安全性与有效性。值得注意的是,目前美国食品药品监督管理局(FDA)尚未批准任何脑机接口设备。 手术过程由定制的机械臂完成,在患者颅骨上钻孔后植入装置。设备通过蓝牙连接至计算机,患者可用意念移动鼠标光标、打字、浏览网页,甚至畅玩电子游戏。首位受试者 Noland Arbaugh 就是如此操控电脑进行日常活动,他已完全瘫痪,却依然能够编辑网页、撰写文章、处理财务等,实现独立生活。 Arbaugh 表示:“我现在只需想象光标移动至键盘某处并点击,就能完成操作。”虽然他坦言当前的光标控制尚未达到理想的精准度,但他称这段经历是“生命中的一段传奇旅程”,改变了自己的人生态度,也坚定相信未来每个想要 BCI 的人都能拥有一个。他强调,这一技术的推广应以负责任的方式进行。 除 Arbaugh 外,其他已知患者还包括: Neuralink 目前仍在继续招募参与者,用户可在线申请加入测试。 该公司正面临来自 Echo 与 Synchron 等多家脑机接口初创企业的激烈竞争。其中 Synchron 已将其设备植入 10 名患者,且其设备即将成为首个可连接 Apple 设备的脑接口技术。不同于 Neuralink 的颅骨钻孔方式,Synchron…
英国研究团队启动合成完整人类基因组的前沿项目
据报道,英国一支科研团队正在开展一项前所未有的科学计划——从零开始合成人类 DNA,力图解答关于人类基因组的基础性问题,并彻底革新人类对健康与疾病的理解。 这一研究因其前沿性与潜在影响而引发争议。长期以来,科学界普遍对合成人类全基因组保持谨慎,担心该技术可能引发“优生婴儿”或“基因乌托邦”等伦理问题。 然而,这项被称为“合成人类基因组计划”(SynHG)的项目目前已获得全球最大医学慈善机构 Wellcome Trust 约 1170 万美元(1000 万英镑)资助。该机构表示,潜在益处远大于风险,未来该技术可用于开发新型医疗疗法,如定制细胞疗法和抗病毒组织移植等。 牛津大学教授 Jason Chin 将牵头此项研究,联合多家英国高校与研究中心开展合作。在未来五年内,该项目团队计划建立实现全基因组合成所需的关键工具、技术和方法。Chin 表示:“合成包括人类细胞在内的大型基因组的能力,或将改变人类对基因组生物学的理解,并深刻重塑生物技术与医学的未来。” 值得一提的是,Wellcome Trust 曾是 25 年前“人类基因组计划”的主要资助方之一。此次从零开始构建完整人类基因组,挑战更大,预计将耗费数年甚至数十年。Chin 团队此前已成功合成大肠杆菌的完整基因组,但与人类基因组相比,这一成果仍属“小巫见大巫”,后者的体积约大 700 倍。 分子生物学研究委员会实验室(MRC LMB)的研究组负责人 Julian Sale 向《卫报》表示:“人类基因组不仅仅是一串基因的集合,它包含大量我们尚不理解的部分,有时被称为‘基因组暗物质’。只有真正构建出基因组,才能真正理解它。” 科学家们的首个目标是在未来五到十年内合成一个完整的人类染色体。与基因编辑不同,基因组合成可在更大尺度上对 DNA 进行操作,有助于揭示大量尚未被充分理解的 DNA 区域在健康与特征形成中的作用。 不过,也有研究者担忧人类如掌握书写完整基因密码的能力,可能获得对生命系统的巨大控制力。爱丁堡大学遗传科学家 Bill Earnshaw 向 BBC 表示,该技术未来可能被用于制造合成人类、生物武器,甚至带有人类 DNA 的生物体,但他同时指出实现这些设想所需的技术仍远未成熟。 该项目正试图正面应对合成基因组所带来的伦理难题。Wellcome Trust 同时资助了一个由肯特大学 Joy Zhang 教授领导的研究计划,专注于探讨在实验室中创造人类基因组的社会与伦理问题。 Wellcome 的高级研究经理 Tom Collins 向 BBC 表示:“这项技术终将会被开发出来,所以我们选择现在就启动,是希望以尽可能负责任的方式推进,并正面面对其中的道德与伦理挑战。”
OpenAI 与 Meta 之间的人才争夺战导致裁员停滞与补偿机制调整
OpenAI 目前正陷入一场全面的人才争夺战,Meta 大举挖角该公司顶尖研究人员。据报道,Meta 又从 OpenAI 挖来了四位重要研究人员:Shengjia Zhao、Jiahui Yu、Shuchao Bi 和 Hongyu Ren,他们都是 GPT‑4.1、o3 架构及多模态系统的关键贡献者。 此前已有报道称 Meta 已招揽了 Trapit Bansal 及其余三位研究员,这意味着近期至少已有八位高知名度人才跳槽 Meta。更早之前,驻苏黎世研究中心的 Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai 也先后离开 OpenAI,他们曾为该 европейский research hub 的扩张发挥重要作用。公司内部对这些人才流失表现出极大担忧,一名 OpenAI 工程师曾在推特发布一条“巨大损失”的评论,但随后删除。 根据 Twitter 用户 Yuchen Jin 的发帖内容,这四位被 Meta 高调挖来的华人研究人员背景如下: 这一人才外流促使 OpenAI 领导层迅速响应。据 Wired 援引内部 Slack 备忘录,首席研究官 Mark Chen 将此形容为一场“入室盗窃”:“我现在有一种本能的感觉,就像有人闯入了我们的家园,偷走了东西。”在另一份内部备忘录中,Chen 表示公司正重新校准薪酬方案,并努力留住现有人才。 为缓解员工疲劳、提升士气,OpenAI 决定在一周内实施全公司范围的 “关门” 停工,此前员工长期每周加班至 80 小时以上。不过,领导层也警告,Meta 可能会利用这一休整期,向留守研究人员提出具有诱惑力的限时邀约。 与此同时,OpenAI 启动了新的招聘策略,从 Shopify…
Geek Out Time:使用混合路由优化多智能体 AI(AG 2)
在之前的文章里,我展示了如何用 AutoGen 搭建一个由四个领域代理—— Passion、Obstacle、Balance、Values——共同对话的职业教练聊天机器人。它能工作,但所有代理同时发声,回复显得冗杂。这次,我升级了“编排”逻辑,只让合适的代理发言,并由 LeadCoachAgent 将他们的观点汇总成精炼的行动方案。 业界路由是怎么做的? 在生产级多智能体系统里,团队很少只用一种启发式。常见的做法是 混合路由: 步骤 1:安装 pythonCopyEdit!pip install -q git+https://github.com/ag2ai/ag2.git \ openai sentence-transformers scikit-learn 步骤 2:定义代理与配置 pythonCopyEditimport os, openai from autogen import ConversableAgent, UserProxyAgent, GroupChat, GroupChatManager from sentence_transformers import SentenceTransformer from sklearn.metrics.pairwise import cosine_similarity # 🔑 设置 OpenAI API Key os.environ[“OPENAI_API_KEY”] = “sk-your-key-here” client = openai.OpenAI(api_key=os.environ[“OPENAI_API_KEY”]) llm_config = { “temperature”:…
AlphaGenome:以人工智能促进对基因组的深入理解
一款全新的统一 DNA 序列模型 AlphaGenome 正式推出,该模型在调控性变异效应预测方面取得重要突破,并有望揭示基因组功能的新层面。AlphaGenome 现已通过 API 提供预览访问,用于非商业研究用途。 基因组被视为细胞的说明书,包含生命体的全部 DNA 信息,决定了其外貌、功能、成长和繁殖。即便是极微小的 DNA 序列变异,也可能改变机体对环境的反应,或增加其患病风险。然而,要解码基因组在分子层面上的“阅读”方式,以及理解当 DNA 出现微小变化时所产生的后果,至今仍是生物学面临的一大难题。 为推动科学研究,AlphaGenome 提供了更全面、精准的预测能力,帮助科学家理解人类 DNA 中的单一变异如何影响多个基因调控过程。这项突破得益于一系列技术进展,使模型得以处理长达一百万碱基对的 DNA 序列,并提供高分辨率预测。 AlphaGenome 可通过 API 免费用于非商业性研究,未来也计划向更广泛的用户群体开放。 AlphaGenome 的工作原理是:以长达一百万个碱基的 DNA 序列作为输入,预测与基因调控相关的数千种分子特征,并通过对比变异序列与原始序列的预测结果,评估特定基因变异的影响。预测内容包括不同细胞类型与组织中的基因起始与终止位置、RNA 产量、RNA 剪接位置及其频率,以及 DNA 的可及性、空间接近性及与特定蛋白质的结合情况。 模型的训练数据来自多个大型公共项目,如 ENCODE、GTEx、4D Nucleome 与 FANTOM5,这些项目提供了对数百种人类与小鼠细胞类型和组织中基因调控模式的实验性测量数据。 AlphaGenome 的架构结合了卷积层(用于识别短序列模式)、Transformer(用于跨序列位置的信息传递)和用于多种预测任务的输出层。训练过程中,模型运算分布在多个互联的张量处理单元(TPU)上,以加快效率。 该模型基于早期的 Enformer 模型,并与 AlphaMissense 模型互补,后者专注于蛋白质编码区域变异的分类,占据整个基因组的2%。AlphaGenome 则针对剩余的98%非编码区域提供新的解读方式,这些区域在调控基因活性中发挥关键作用,且常包含与疾病相关的变异。 AlphaGenome 的亮点包括: 通过单一 API 调用,科学家即可同时评估变异对多个基因调控过程的影响,无需借助多个模型,极大加快假设生成与验证的速度。模型的高性能也表明其已学习到基因调控相关的通用 DNA 表征,为未来扩展至其他物种、新的调控模式或更广泛应用奠定基础。 AlphaGenome 在以下研究方向具有广阔应用前景:…
Gemini CLI:面向开发者的开源 AI 代理工具
Gemini CLI 是一款免费开源的 AI 工具,专为开发者量身打造,直接将 Gemini 的强大能力引入终端环境,为个人用户提供前所未有的访问权限。 对开发者而言,命令行界面(CLI)不仅仅是一种工具,更像是一个工作空间。它以高效、普遍适用和便携性著称,长期以来一直是完成任务的首选方式。随着开发者对终端依赖的持续增长,对集成 AI 助手的需求也愈发强烈。 基于此背景,Gemini CLI 诞生了。这是一款开源的 AI 代理工具,可直接在终端中使用 Gemini 的功能,用户可通过命令行提示以最直接的方式接触模型。尽管其在编程方面表现出色,但 Gemini CLI 的用途远不止于此,它是一款多功能、本地化的实用工具,适用于内容生成、问题解决、深入研究以及任务管理等广泛场景。 此外,Gemini CLI 还与 Google 的 AI 编程助手 Gemini Code Assist 实现了整合,所有开发者——无论是免费版、标准版还是企业版的 Code Assist 用户——都可以在 VS Code 和 Gemini CLI 中体验以提示为核心的 AI 编程辅助功能。 Gemini 2.5 Pro 模型能力现已通过 Gemini CLI 引入开发者终端,并为个人用户提供了行业领先的使用额度。只需使用个人 Google 账号登录,即可免费获取 Gemini Code Assist 授权,进而使用…
MCP正在“吞噬世界”
尽管“模型上下文协议”(Model Context Protocol, 简称MCP)近期在开发者社区中掀起热潮,但它并不是某种颠覆性奇迹。Stainless公司认为,MCP的成功之处在于其设计的简洁性、出现时机的契合度,以及执行上的高效性——这套协议已经具备扎实的落地基础,并极有可能成为未来LLM生态的重要基石。 为什么MCP正在“吞噬世界”? 1. 模型能力终于“够用”了早期的工具调用往往被模型不稳定性拖累,需要大量重试逻辑和冗长的错误处理。稍有疏忽,就会陷入“上下文中毒”的死循环。而如今,主流LLM已经达到“稳定可用”的门槛,大幅降低了工具集成的复杂度。MCP正是在这一时刻登场,正中发展节点。 2. 协议本身“足够好”过去的工具协议碎片化严重,例如OpenAI函数调用局限于自家平台、LangChain与其提示循环强耦合、ChatGPT插件需托管OpenAPI服务且需平台审核等。MCP首次提出跨平台、厂商中立的协议标准,一个工具只需按MCP规范定义一次,便可被所有支持MCP的代理系统通用调用。 虽然跨平台兼容性仍有挑战(如权限认证未标准化),但MCP已实现最关键目标——建立清晰的开发分工边界:工具开发者专注工具,代理开发者专注代理逻辑。 3. 工具链“门槛够低”MCP SDK在Python等多语言下已有成熟实现,例如仅需装饰函数并启动一个本地服务器,即可将模块内所有函数暴露为MCP工具,无需手动处理重试或请求结构,极大降低了构建、分享和复用工具的门槛。 Stainless总结这类设计为“设计在正确高度”,即API不暴露过多细节也不隐藏关键信息。这样的接口往往更具生命力。 4. 社区动能“足够强”标准成功的关键是生态。如今OpenAI、Anthropic、Google DeepMind等大厂均已支持MCP;Zed、Cursor、Cline等代理系统也已集成。API提供商正竞相将其服务发布为MCP工具;而即使官方未支持,也有第三方工具补位。 MCP生态已出现多样资源: 这种社区动能正在形成正反馈循环:越多开发者发布MCP工具,代理系统就越强大,进而吸引更多开发者加入。 未来,随着MCP使用数据被纳入模型训练集,LLM对工具调用的理解能力将进一步增强,使MCP更加根深蒂固,成为API交互的默认范式。 总结:MCP值得下注虽然热度往往稍纵即逝,但MCP并非虚火,它的兴起有坚实的技术、生态与开发体验支撑。Stainless团队也因此下注MCP,将其视为未来API平台的重要组成部分。 在功能合格、设计得当、社区活跃三者兼备的背景下,MCP的未来值得关注,也值得构建者们参与其中。
亚马逊为人工智能初创公司Anthropic构建超级计算平台
在印第安纳州新卡莱尔镇,一片原本种植玉米的1200英亩农田如今正被亚马逊改造成全球最大规模之一的AI数据中心。这一庞大的项目由亚马逊主导,核心目标是为人工智能初创公司Anthropic构建超级计算平台。该设施被命名为“Project Rainier”,预计将建成约30座数据中心,总耗电量高达2.2吉瓦,足以供100万户家庭使用。 这一超级数据中心计划部署数十万颗由亚马逊旗下Annapurna Labs设计的AI专用芯片Trainium 2,与Anthropic团队合作开发,专为大规模AI模型训练优化设计。虽然这些芯片性能不及Nvidia高端产品,但通过密集部署,亚马逊希望实现更高的计算密度与能效比。 目前已有七座大型数据中心建筑完成建设,计划再增建23座。每座建筑面积巨大,等同于多个橄榄球场,全部建成后将形成一个巨型AI计算集群。项目快速推进之下,当地每天有约4000名建筑工人参与施工,四家总承包商同时作业以加快进度。 为了冷却这些高密度芯片,亚马逊采用节能冷却技术:春秋季节依赖室外空气通风,夏季则使用市政供水蒸发降温。数据中心每年将消耗数百万加仑水用于冷却。虽然此技术在能效上优于竞争对手(如谷歌、Meta等使用液冷与高耗能芯片方案),但也引发了环境争议。 一项涉及将数据中心建在10英亩湿地上的计划遭到社区居民强烈反对,担忧水资源被抽干、自然生态受破坏。目前印第安纳州监管机构正在调查项目中的抽水作业是否影响了周边地下水位。亚马逊方面则表示,湿地规模小、生态价值有限,不会造成显著环境破坏。 这一超级数据中心不仅为Anthropic提供AI训练所需的算力资源,还将在未来用于AI推理与交付服务,以提高整体设施使用效率。亚马逊AI芯片主管Prasad Kalyanaraman强调,即使AI发展放缓或训练效率提升,该中心也能被灵活转换为AI产品的部署平台。 据报道,印第安纳州立法机构已为该项目批准了一项为期50年的销售税减免政策,总额或达40亿美元。再加上县级层面的财产与技术税优惠,亚马逊未来35年内可节省的税费预计将再增40亿美元。 目前,这项耗资预计超过200亿美元的超级数据中心建设仍在快速推进中。作为全球AI算力军备竞赛的一部分,亚马逊正以前所未有的速度与规模打造AI基础设施,并在与Meta、微软、OpenAI等科技巨头的竞逐中占据战略高地。该项目不仅重新定义了“数据中心”的概念,也正在改变全球AI技术的研发与部署格局。