2023年5月,NBC广告高管琳达·亚卡里诺(Linda Yaccarino)加入当时仍名为Twitter的公司,肩负着重建与广告商关系的重任——此前,埃隆·马斯克接手该平台后的混乱让许多品牌望而却步。然而,仅在她上任几周后,马斯克发布的一则反犹推文再次导致迪士尼、派拉蒙、NBC环球、康卡斯特、狮门和华纳兄弟探索等品牌暂停在该平台投放广告。 尽管马斯克后来在一场会议上称那条推文是“自己发过最糟糕的内容”并道歉,但他同时对广告商发出侮辱性信息,特别是针对迪士尼CEO鲍勃·艾格(Bob Iger)表示: “我不想他们在这里投广告。如果你们想用广告或金钱勒索我,那就滚吧。滚!明白了吗?嘿,鲍勃,如果你就在台下,我就是这么想的。” 当时,亚卡里诺也坐在会场中。 在接下来的两年里,亚卡里诺一直面对着马斯克的反复无常、平台上持续存在的内容审核和仇恨言论问题、与广告主愈发紧张的关系,以及老板与特朗普政府关系所引发的广泛争议。在部分事件中她保持沉默,在其他场合则选择为公司辩护。 然而专家指出,从一开始就明显看出,亚卡里诺不过是名义上的CEO。 福雷斯特研究公司副总裁兼研究总监Mike Proulx表示: “事实是,埃隆·马斯克始终是X的实际掌舵人。她被赋予的职责本就极为有限。就背景和权力范围而言,她更像是一位首席广告官,而非真正的CEO。” 即便在她扮演“广告主管”的角色中,马斯克频繁发帖、冲动决策,以及对“觉醒文化”(woke)和社交平台方向的极端反感,也使她的工作处处受阻。 Proulx总结说: “她的辞职唯一令人惊讶的地方在于,这件事竟然拖到了现在才发生。” 平台上的仇恨言论与AI丑闻再度发酵 就在本周,X平台整合的AI聊天机器人Grok因多次发布反犹内容(包括赞扬希特勒的言论)而引发新一轮风波。根据xAI此前发布的准则,Grok被指示“可发表政治不正确但合理的言论”,而该条准则已在周二晚间被悄然删除。 这也使得亚卡里诺的任期几乎被两起反犹事件所“首尾包围”——马斯克本人发布的推文和Grok所引发的争议。 自2023年起,多个机构就平台上的仇恨言论提出警告。例如,“反数字仇恨中心”(Center for Countering Digital Hate)发布的报告显示X平台上存在大量未被审查的反犹和其他仇恨内容,X公司对此的回应竟是提起诉讼,但最终诉讼被驳回。 类似地,“美国媒体观察”(Media Matters for America)指出,多个品牌广告被展示在亲纳粹推文旁,随后引发又一轮广告商大撤离。X也对该机构发起诉讼。 2025年初,马斯克在一场特朗普就职集会上被指连续做出纳粹敬礼手势,他对此轻描淡写,甚至在平台上发布与纳粹相关的双关笑话。亚卡里诺未做正式回应,却转发了一条带有笑脸表情符号的贴文,表明了她对老板玩笑的某种“默认”。 随着用户流向Bluesky等替代平台,甚至Reddit社区开始封禁X链接,这一事件也进一步加剧了外界对X明显右倾趋势的担忧。 从“全球广场”到“马斯克个人扩音器” 加入X后,亚卡里诺曾试图通过邀请名人、建立合作关系、修复品牌形象来重振平台声誉,并协助实现马斯克构想中的“万事应用”(everything app),融合支付、AI、直播、消息和社交功能。 她曾率领团队(包括马斯克本人)前往2023年戛纳国际创意节,与业界领袖接洽,并积极招募媒体人。例如,她邀请前CNN主持人唐·莱蒙(Don Lemon)在X上开设节目,以呼应前福克斯主持人塔克·卡尔森(Tucker Carlson)已入驻X的举动。 然而,莱蒙在首期节目中采访马斯克时因询问其用药问题发生争执,节目发布前,马斯克便已通知莱蒙的经纪人终止合作。此后,平台再也没有成功吸引主流内容创作者。 两年过去,X不但未能成为主流视频平台或“万事通”应用,反而越来越沦为马斯克个人发声渠道——发布抱怨、宣传旗下公司、或在社交媒体上与特朗普既唱和又翻脸。平台上充斥着极右翼网红、色情垃圾账号和模因账户,大量媒体已选择远离X。假信息和极端内容猖獗,有时甚至来自马斯克本人。 广告复苏失败与企业声誉危机 尽管亚卡里诺曾在2024年成功吸引多家企业短暂恢复广告合作,尤其在马斯克与白宫关系最紧密时期,但根据市场研究公司eMarketer数据,X平台广告收入始终未能恢复至马斯克接手前的水平。 《华尔街日报》更报道,X甚至曾威胁大型公司如Verizon,若不在平台投放广告将面临法律诉讼。尽管亚卡里诺否认相关指控,但这进一步损害了其职业声誉。 在经历两年为老板及平台收拾烂摊子的生涯后,亚卡里诺于本周宣布辞职。马斯克对此只简单回应: “感谢你的贡献。” 随后几分钟内,他又开始在X上发帖讨论SpaceX、人工智能,以及Grok为何“变成纳粹”。 结语:从未拥有权力的CEO 专家普遍认为,从她上任第一天起,亚卡里诺就并未真正掌握权力。她本应带领X走向转型,但最终只是成为马斯克众多争议行为的“公关防火墙”。 在一个由不可预测的亿万富翁主导的公司里,哪怕最资深的高管,也只能扮演一位随时可以牺牲的角色。亚卡里诺的失败,不是因为她不够努力,而是因为她从未被赋予成功所必需的空间和自由。
OpenAI计划推出AI浏览器,正面挑战谷歌Chrome地位
OpenAI正准备推出一款搭载人工智能功能的网络浏览器,试图直接挑战Alphabet旗下、市场占有率最高的谷歌Chrome浏览器。三位知情人士向路透社透露,这款浏览器预计将在未来几周内发布,并将借助AI从根本上改变用户上网的方式。 这款浏览器将整合类似ChatGPT的聊天界面,并支持AI代理任务,使得用户不必频繁点击跳转网页,即可在对话窗口中完成查询和操作。这一策略意图打破传统网页浏览的流程,并让更多用户行为停留在OpenAI的界面内。 知情人士指出,这款浏览器是OpenAI更大生态战略的一部分,目标是深入嵌入用户在个人生活和工作中的日常操作,从而掌握更全面的用户行为数据。这一意图也显示出OpenAI正在向谷歌赖以盈利的核心领域——用户数据和广告定向——发起正面进攻。 若OpenAI成功将该浏览器推广至其现有的5亿周活跃用户群体,那么它将直接威胁谷歌广告收入体系的关键支柱。Chrome浏览器一直是Alphabet广告业务的核心工具,不仅为谷歌带来精准的广告定向数据,还将大多数搜索流量默认导向其自家搜索引擎。 OpenAI方面目前对此不予置评,而提供消息的相关人士因未获授权公开发言,选择匿名。 自2022年底推出AI聊天机器人ChatGPT后,OpenAI在科技行业引发了一场AI革命。如今面临来自谷歌及初创公司Anthropic的激烈竞争,该公司正寻找新的增长路径。 今年5月,OpenAI曾宣布将进军硬件领域,并斥资65亿美元收购由苹果前首席设计师Jony Ive创办的AI设备公司io。浏览器的推出将为OpenAI提供一个关键入口,使其能将自研AI代理产品(如Operator)无缝整合至用户的上网体验中,进而实现“由AI代理用户操作”的目标。 随着OpenAI持续扩展其产品矩阵,这一浏览器的发布标志着其正式向谷歌长期主导的互联网入口地带迈出关键一步。
CTO揭示:AI如何改变了2025年软件开发者的招聘标准
AI正以前所未有的方式重塑软件开发领域:每位初级开发者都似乎变成了代码工厂,而高级开发者却仿佛成了打扫残局的“清洁工”。 这是当前整个行业正在面对的残酷现实。尽管AI的倡导者们承诺所有人都将成为“10倍效率的开发者”,但实际发生的是:企业正在被海量看似完美、却在生产环境中崩溃的AI生成代码所困扰。 因此,本次特别采访了12位在2025年仍处于招聘一线的CTO与工程负责人,深入了解他们如今在招募开发者时所最看重的技能。 问题很简单:“因为AI的广泛使用,您在招聘开发者时现在最重视、而过去没那么在意的技能是什么?” 结果令人惊讶:他们要的并不是所谓的“提示工程师”(prompt engineer)。 这些技术领导者的答案印证了资深开发者早就猜到的事实:最有价值的开发者,不是那些能调用AI写出代码的人,而是那些能解决AI带来的问题的人。 批判性思维优先于代码产出 1. “AI常常自信地给出错误答案”许多技术领导者表示,如今他们最看重的就是开发者能否质疑AI输出,而不是盲目接受。Geniusee联合创始人兼CEO Taras Tymoshchuk 指出: “AI会自信地输出错误答案,开发者必须学会怀疑。质量的关键是验证假设的能力。” 他们的面试流程已发生变化: 2. “优秀的候选人把AI当成初级队友”WeblineGlobal联合创始人兼CTO Vipul Mehta 表示: “我如今更看重候选人能否独立验证AI生成的代码,而不是盲信AI。” 他会让面试者使用AI工具生成代码,然后分析潜在风险或指出测试思路。那些能冷静拆解AI结果、并提出改进建议的候选人尤为出色。 3. “一次审慎的检查避免了患者安全隐患”OSP Labs创始人兼CEO Riken Shah 讲述了一个典型案例:一位应聘者在测试中指出了AI代码处理HL7时间戳的方式存在隐患,可能导致患者生命体征数据延迟同步。这个发现避免了一场可能引发法律责任和高额返工成本的危机。 4. “我们要的是能发现AI错误的人”WeblineIndia市场与人事负责人 Vikrant Bhalodia 指出: “技术评估不再只看代码的‘好坏’,更看候选人是否能站在架构、安全、稳定性等角度质疑AI建议。” 系统思维成为新竞争力 5. “AI能写代码,但无法判断系统如何扩展”Varyence CTO Jason Hishmeh 指出: “AI解放了基础编码,开发者如今更多承担设计可扩展、灵活架构的任务。人类判断力至关重要。” 他强调在面试中考查应聘者是否能抽象问题、评估系统交互、考虑未来发展。 6. “看似完美的代码,在现实环境下崩溃”Vitanur的CTO Royal Rovshan 表示: “我们现在重点考察的是系统思维,比如候选人如何优化CRM系统,或在高峰期如何减缓加载时间。” 仅了解工具已不够,能够识别潜在风险、权衡复杂因素的人才才是核心。 7. “AI生成函数,开发者构建结构”Franzy联合创始人兼CEO Alex Smereczniak 指出:…
技术哲学与人工智能机遇
人工智能的一个最具悖论性的特点在于,尽管它被誉为通向丰裕的道路,但至今最重要的财务成果却集中在稀缺性上。最直接明显的例子便是英伟达(Nvidia),其市值飙升,芯片需求远超供应: 近年来,另一个日益突出的稀缺资源是AI人才——那些真正构建和扩展模型的人才如今的薪酬甚至超过了职业运动员,这一现象的背后逻辑也不难理解: 这一点在科技行业历史中相当罕见。尽管优秀程序员一贯炙手可热,特定产品领域也曾出现激烈竞争,但在过去几十年间,科技公司本质上是各自为政的“特许经营”:谷歌主打搜索,亚马逊专注电商,Meta侧重社交媒体,微软聚焦商务应用,而苹果则以硬件设备见长。这种市场格局意味着企业的整体实力高于个体员工,从而限制了个人薪酬的天花板。 而AI的情况至少目前为止有所不同:虽然从长远来看,AI产品也可能出现分化和主导企业,但只要游戏核心还是基础模型(foundation models),所有公司就都在打一场相同的比赛,这便大幅提升了顶尖人才的议价能力。由此,能够提供更高报酬或更具吸引力使命感的公司,自然会吸引最强选手;反过来,无法满足这些条件的企业,则注定在竞争中败下阵来。 苹果的迟疑 上述观点引出当前的焦点问题:公司阵营的变化值得深入观察。以Meta和苹果近期的自由球员签约为例,彭博社报道称: 苹果公司负责AI模型开发的高级主管即将跳槽至Meta,这对苹果本已陷入困境的AI战略而言无疑是又一打击。据知情人士透露,这位名为彭荣明(Ruoming Pang)的杰出工程师,曾负责苹果基础模型团队,目前已决定离职。Pang于2021年从Alphabet跳槽至苹果,如今成为Meta“超级智能”团队的最新重要招募对象。 知情人士透露,Meta为招揽Pang开出了每年数千万美元的待遇。Meta首席执行官马克·扎克伯格近期正大举招募AI高端人才,已吸纳包括Scale AI创始人Alexandr Wang、创业者Daniel Gross以及前GitHub CEO Nat Friedman在内的多位重量级人物,同时还从OpenAI与Anthropic挖来了研究员李元志(Yuanzhi Li)和Anton Bakhtin,后者曾参与Claude模型的开发。上个月,Meta还从OpenAI批量招募了一批研究员。Meta在本周一晚间确认聘用Pang,而苹果、Pang本人、OpenAI和Anthropic均未对此发表评论。 苹果AI团队被挖角令人意外之处并不在于他们流失人才,而在于他们原本竟然拥有如此值得争抢的研究人员。毕竟,苹果早在另一项稀缺资源——Nvidia芯片采购上,就已显示出其对AI的不够投入。彭博社曾报道: 前首席财务官卢卡·梅斯特里的GPU采购策略显得过于保守,事后看来这一决策并不理想。长期以来,苹果利用市场主导地位和雄厚现金储备,控制了包括半导体和玻璃等关键部件在内的全球供应链。然而在AI芯片需求暴增之际,苹果仍采取缓慢采购的做法——这延续了其对新兴技术一贯持保留态度的战略——结果导致其模型训练速度远远落后于其他公司。苹果的一位AI团队成员指出:“当对手已将全球的GPU抢购一空时,你就不可能凭空召唤出更多资源。” 这看起来或许令人费解:一家在2024财年创造了1180亿美元自由现金流的企业,居然如此“吝啬”?但从两个角度来看,苹果的谨慎又显得合情合理。 首先,AI在短期内对苹果业务的实际影响并不大:人们仍需设备来访问AI,而苹果在高端设备市场仍处于领先地位(当然,长期来看,AI可能取代智能手机,或显著提升Android等替代平台的吸引力)。这显著削弱了苹果在GPU与人才方面进行高额投资的动机。 其次,一些AI企业所描绘的激进愿景,本身与苹果一贯的企业哲学格格不入。 科技的两种哲学 早在2018年,正是AI(当时还未进入LLM阶段)促使人们开始探讨“科技的两种哲学”:其一以谷歌和Meta为代表: 谷歌认为,计算机的角色是替人类完成任务,从而节省时间。Duplex便是其中最具代表性的案例——计算机代表用户拨打电话。谷歌的许多AI成果也体现了这一理念:Google Photos自动整理并建议修改照片;Google News为用户挑选新闻;Google Maps带用户发现周边店铺。Waymo最终登台亮相,自动驾驶汽车的出现,也可谓顺理成章。 而Meta的扎克伯格,则似乎是这一理念更极端的实践者。Meta不仅要替用户完成任务,还坚持做出用户自己“本不会做出的事”。扎克伯格身上的“救世主情结”使Meta走向了这一思路的更极端路径——即让计算机主动替人类行事。 第二种哲学则由苹果与微软代表: 在微软Build大会上,CEO萨提亚·纳德拉展现出截然不同的理念:计算机不是替人类工作,而是辅助人类提升工作效率。这种哲学隐含着不同的责任观:谷歌CEO皮查伊强调“我们对AI发展有深切责任感”,这本质上仍以公司为主导;而纳德拉认为责任在于整个行业与每一位使用者。 这一“工具型哲学”是较早期的主流理念,其最具代表性的代言人无疑是苹果的已故联合创始人乔布斯。乔布斯曾以“思维的自行车”形容计算机的作用: “小时候读到一篇科学美国人的文章,文中比较了各种生物在从A点移动到B点过程中的能量效率。秃鹰是最节能的,而人类仅排名中游。但有人做了个实验,让人骑上自行车测试结果——人类瞬间超越所有生物。这个例子对我影响极大:我们是工具制造者,能用工具极大放大自身能力。计算机正是这样一种工具,是人类思维的自行车。虽然我们刚起步,但已经见证巨大变化,而未来百年会有更令人惊叹的发展。” 四十年后的今天,乔布斯的预言得以应验:移动互联网已经彻底改变世界,而AI的影响可能更胜一筹。就本文章而言,更值得关注的是商业机遇与企业哲学的互动关系。 苹果的立场十分清晰: 苹果的谨慎源于其认为AI对自身业务的直接回报不大,也不太担心潜在风险。其“工具偏好”哲学让苹果更愿意将AI作为第三方App形式接入iPhone。苹果作为平台公司,其任务不是主导AI,而是确保开发者能在其平台上提供AI应用。 与此同时,Meta的激进策略亦在逻辑之中:AI为其提供巨大机会(同时也是威胁——广告业务最稀缺的资源是用户时间),而其哲学是让计算机“主动代劳”。 感觉幸运吗? 另一种分析公司AI战略的方法,是借助已故哈佛教授克莱顿·克里斯滕森提出的“延续性与颠覆性创新”框架: 大多数新技术属于延续性创新,即提升已有产品在传统市场中的性能。而颠覆性创新则在短期内性能更差,但带来完全不同的价值主张,满足的是小众新兴用户的需求——通常更便宜、更简单、更便捷。 生成式AI对谷歌而言究竟是延续性还是颠覆性创新,至今仍无定论。谷歌在基础设施与研究方面具有深厚积累,AI技术可增强其广告与云服务,但其核心搜索业务的变现逻辑却可能遭遇挑战。 Meta没有搜索业务包袱,AI显然是延续性技术,因此其敢于重金投入。 问题在于谷歌:为何其也大力投入AI?答案或许藏在其创始愿景中——“I’m Feeling Lucky”(我感觉幸运)这个按钮象征着谷歌创始人对AI与精准搜索的信仰。即便该按钮后来已形同虚设,其象征意义仍深远。 谷歌愿意冒商业模式的风险追求AI技术本身,或许意味着它最终有望实现AI转型。 微软、OpenAI与Anthropic 上述分析虽适用于苹果、Meta与谷歌,但在微软、OpenAI与Anthropic身上还需更多补充。 微软自身并无强大基础模型,但投资了OpenAI,其核心AI产品是Copilot——正是典型的“工具哲学”产物。但挑战在于:员工是否愿意改变工作方式来适应这些工具?Bloomberg报道称: 微软销售人员正面临巨大压力,而OpenAI已拥有300万企业用户,增长迅猛。尽管Copilot在众多企业中使用,但面对与ChatGPT的直接竞争,微软销售团队难以找到差异化卖点。 这说明:只要AI使用依赖员工自发意愿,ChatGPT这类消费者认知度更高的产品更具优势。OpenAI事实上也和微软面临相同挑战。 相反,Anthropic的战略截然不同:其目标是打造“代理型AI”,即替人类完成任务的智能体。Claude系列的产品强调“完成任务”而非“辅助用户”。Anthropic的目标是用AI取代某些工作,而非增强个体效率。 这与20世纪主机时代的软件(如会计与ERP)如出一辙:AI替代后台职能,让企业受益,由高管推动实施,而无需依赖员工主动改变行为。 这也解释了为何Meta能吸引更多OpenAI研究员:许多研究者对“AI主导一切”的愿景更具热情,而非仅仅把AI视作工具。由此,传统工具厂商也不得不与这些“信仰者”合作。…
Google AI 刚刚开源 MCP 数据库工具箱,让 AI 代理安全高效地查询数据库
https://github.com/googleapis/genai-toolbox Google 日前发布了 MCP Toolbox for Databases,这是一款新开源的模块,属于其 GenAI Toolbox 工具集的一部分,旨在简化 SQL 数据库与 AI 代理集成的流程。该发布是 Google 推动 Model Context Protocol(MCP) 战略的一部分,该协议是一种标准化方式,允许语言模型通过结构化、类型化接口与外部系统(包括工具、API 和数据库)交互。 这款工具箱回应了一个日益突出的需求:使 AI 代理能够以安全、可扩展和高效的方式与结构化数据存储(如 PostgreSQL 和 MySQL)交互。传统上,实现这类集成通常需要处理身份验证、连接管理、模式对齐(schema alignment)与安全控制等,过程复杂繁琐。MCP Toolbox 极大减少了这类负担,使得只需不到 10 行 Python 代码和极少配置,就能实现集成。 AI 工作流中的关键意义 数据库是存储与查询操作数据与分析数据的核心。在企业与生产场景中,AI 代理需要访问这些数据源以完成如报表生成、客户支持、系统监控、决策自动化等任务。然而,将大型语言模型(LLM)直接连接至 SQL 数据库,可能引发包括不安全查询生成、连接生命周期管理不善、敏感凭证暴露等一系列操作与安全问题。 MCP Toolbox for Databases 解决了这些问题,提供以下功能: 技术亮点 极简配置,最大可用性 开发者只需基于配置定义数据库类型与环境,工具箱便能自动处理凭证与连接,无需手动管理。这种抽象降低了开发负担与风险,特别是在敏感或多环境部署场景下尤为重要。 原生支持 MCP 工具协议 通过 MCP Toolbox 生成的所有工具都符合…
LLM探索的时代
当前的大语言模型,是过去三十年人类在互联网上自由发布海量文本内容的意外副产品。Ilya Sutskever 曾将这类信息比作“化石燃料”,即便丰富,但终究有限。一些研究指出,按照当前模型的 token 消耗速度,前沿实验室可能会在十年内耗尽高质量英文网页数据。即使这些预测过于悲观,有一点是确定的:当前的模型消耗数据的速度,远远超过了人类生成数据的速度。 David Silver 与 Richard Sutton 将接下来的阶段称为“经验时代”(Era of Experience),即未来的关键进展将依赖于学习代理自身生成的数据。在此基础上,Yiding Jiang 提出,更核心的瓶颈并不在于“拥有经验”,而在于是否能够收集到“有益于学习的经验”。下一波 AI 的进展将不再聚焦于堆叠更多参数,而是围绕“探索”——获取新颖且有价值的学习经验这一过程展开。 预训练是对探索的隐性投资 目前的大语言模型开发流程,通常包括两个阶段:首先通过大规模语料执行“下一个 token 预测”任务进行预训练,然后通过强化学习(RL)微调模型以实现特定目标。没有大规模的预训练,强化学习步骤往往难以取得有效进展,这一对比说明预训练解决了某种 RL 无法独立应对的问题。 最近研究中,一个看似矛盾的现象被广泛观察到:体积更小的模型一旦通过链式思维(Chain-of-Thought)蒸馏自更大模型,也能展现出显著的推理能力。一些人据此认为,大模型并非推理能力的前提。但该作者认为这种解读有误,应该反问:若小模型本身具备足够推理能力,为何还需要从大模型中蒸馏? 对此,一个合理的解释是:预训练其实承担了巨额“探索成本”。没有预训练的小模型,难以在自身探索过程中发现高质量解。预训练通过在多样语料上消耗海量计算资源,构建了一个丰富的采样分布,从而让模型能“靠近”正确答案的区域。蒸馏的过程,让小模型得以“继承”大模型探索所付出的代价,从而绕过了早期探索的难题。 强化学习中的学习循环大致包括以下步骤: 要让这一循环有效运行,探索阶段必须具备产生“好”轨迹的最低能力。这在 RL 中被称作“覆盖度”(coverage)。对于 LLM 来说,探索通常是从模型的自回归输出中采样,如果采样不到正确解,那后续强化阶段也就无法开展。 即便在最简单的表格型 RL 场景中(所有状态与动作都可列举),学习仍然需要大量尝试。相关理论表明,所需训练轮次会随着状态-动作组合数线性增长,随着任务时长(horizon)平方增长。而 LLM 的状态空间包括所有可能的文本前缀,动作空间是所有可能的下一个 token,两者规模极其庞大。在无先验信息的情况下,RL 几乎无法直接应用于此。 目前探索的“重活”大多由预训练完成。它提供了更优的采样分布,使得从中采样的轨迹具备更高的信息密度。但这也意味着,模型所能看到的轨迹类型受限于其训练时的 prior,要继续进步,就必须突破这一先验边界。 探索促进泛化能力 历史上,强化学习的研究多聚焦于解决单个环境,比如 Atari 游戏或 MuJoCo 模拟器。这种设置等同于在“同一个数据点”上训练与测试,无法说明模型能否应对真正的新颖情境。机器学习的核心是泛化:针对新问题创造解决方案才是价值所在。 泛化对于语言模型尤为关键。训练时 LLM 只见过有限数量的 prompt,而部署后需要应对任意用户输入,包括前所未见的任务。当前模型在“有明确奖赏信号”的任务上表现尤为出色,例如编程题或数学证明。但如果是更模糊的任务,如撰写研究报告、创作小说等,反馈稀疏或含糊,就会使训练难度和数据收集难度迅速升高。 那么,如何训练更具泛化能力的模型?深度学习的共识之一是“数据多样性提升泛化性能”,而探索正是决定数据多样性的关键因素。在监督学习中,一个标注样本会在一次前向传播中暴露全部信息,因此提升数据多样性只能靠收集更多样本。但在 RL 中,每次交互只暴露环境的一部分信息,必须收集足够多样的轨迹,才能形成对环境的完整理解。 如果采样策略太过简单,例如纯随机游走,模型很可能只接触到环境的“狭隘一角”,从而陷入过拟合。 这一问题在多环境情境中尤为明显。比如…
Alphabet 的 Isomorphic Labs 准备启动 AI 设计药物的人体试验,并完成 6 亿美元融资
2025 年 4 月,Alphabet 旗下的制药科技公司 Isomorphic Labs 完成了其首次外部融资轮,筹集资金达 6 亿美元,由 Thrive Capital 领投。 该公司由 DeepMind 的 AlphaFold 突破性成果孵化而来,正计划启动基于人工智能设计的新药的人体临床试验。据《财富》杂志报道,Isomorphic Labs 总裁兼 Google DeepMind 首席商务官 Colin Murdoch 表示,公司正在将最前沿的 AI 技术与资深药企专家结合,力图更快速、更低成本、更精确地研发新药。 Murdoch 在巴黎接受采访时透露:“现在,在我们位于伦敦国王十字的办公室里,有团队正在与 AI 协作,为癌症设计新药。这是真实发生的事情。” 经过数年的研发,Isomorphic 的 AI 辅助药物终于接近进入临床阶段。Murdoch 说道:“我们即将迎来一个重要的里程碑,那就是开展临床试验,将这些候选药物真正应用于人体。我们目前正在大规模招聘,已经非常接近目标。” Isomorphic Labs 于 2021 年从 DeepMind 分拆而出,其灵感来源于 DeepMind 的重大科学突破——AlphaFold,这是一套能够以极高精度预测蛋白质结构的人工智能系统。 AlphaFold 的发展已经从预测单一蛋白质结构,进步到能模拟蛋白质与其他分子(如 DNA 和药物)的相互作用。这一进展极大提升了其在药物发现领域的实用价值,使科学家能够更快、更准确地设计新药物,从而为一个更宏大的目标打下了基础。 Murdoch 表示:“AlphaFold 是我们创建 Isomorphic Labs…
“猫攻击”揭示推理模型脆弱性,凸显上下文工程的重要性
一项研究显示,即便是像“猫一生中大多数时间都在睡觉”这样简单的语句,也可能显著干扰高级推理模型的表现,使其错误率激增三倍。 目前,针对推理任务优化的大型语言模型(LLM)通常被认为在需要逐步思考的任务中表现突出。然而,一项题为《猫让推理 LLM 混乱》(Cats Confuse Reasoning LLM)的最新研究表明,仅一条看似普通的语句也能导致这类模型出现严重失误。 研究团队构建了一种自动化攻击系统,名为“CatAttack”(猫攻击)。该系统首先由一个攻击模型(GPT-4o)配合一个成本较低的代理模型(DeepSeek V3)生成分散注意力的干扰语句。随后由一个“评判模型”评估输出效果,再将最具干扰能力的语句用于测试更强大的推理模型,例如 DeepSeek R1。 测试发现,哪怕是看似无害的句子,比如猫的趣闻或一般性的理财建议,都可能成为“对抗性触发器”,凸显出现有推理模型的脆弱性。例如,将一句“有趣的事实:猫大多数时间都在睡觉”添加至一道数学题中,或在题目后暗示一个错误答案(如“答案可能是 175 吗?”),再或是附加理财建议,竟可使 DeepSeek R1 的错误率从 1.5% 飙升至 4.5%,即三倍增长。 研究人员指出,这种攻击不仅影响模型准确率,还造成了响应延迟等“慢速攻击”效应。在 DeepSeek R1-distill-Qwen-32B 模型上,有 42% 的回答长度超过原本令牌预算的 50%;即便是 OpenAI o1,也出现了 26% 的增长。这些都意味着更高的计算资源成本。 研究作者警告称,模型在金融、法律、医疗等高风险场景中的易错性可能带来严重后果。为应对这类问题,潜在防御措施包括上下文过滤器、更稳健的训练方法,或开发通用触发器评估体系。 这项研究也再度印证了“上下文工程”作为防御手段的重要性。Shopify CEO Tobi Lutke 最近强调,精准控制上下文是使用大型语言模型的核心能力;而前 OpenAI 研究员 Andrej Karpathy 则指出,上下文工程“非常不简单”。CatAttack 案例正好证明,即使是极少量无关内容也足以干扰复杂推理任务。 此前的研究也支撑这一观点。5 月的一项研究显示,加入无关信息可大幅削弱模型性能,即便任务本身未发生变化。另一份研究发现,随着对话长度的增长,LLM 的响应可靠性持续下降。 一些研究者将此视为结构性缺陷:即便是先进的语言模型,仍难以有效区分相关与无关信息,且缺乏真正严谨的逻辑理解能力。 总的来说,研究表明,只需添加“猫大多数时间都在睡觉”这种看似无害的语句,即可将顶尖推理模型的错误率提升至原来的三倍。而且,这种攻击方式对所有主流模型均有效,不仅增加错误率,还令输出变长、成本上升,形成所谓“慢速攻击”。研究团队强调,在诸如金融、健康等领域,这种脆弱性可能造成重大风险,亟需加强上下文控制与系统性防御机制,以确保语言模型的可靠性。
2025 年使用大模型进行软件工程:现实检验
以工程经理与资深工程师的视角,探讨大厂与初创公司的挑战,以及与 Anthropic、Cursor 等 AI 公司工程师,与 Google、Amazon 等大厂工程师,以及多位资深工程师的对话,从中归纳 AI 工具的使用状况与发展趋势。 一、两极现象 乐观派观点:AI 企业高管的话语 许多 AI 基础设施公司高管发出过类似预言: 这些言论常伴随着乐观预期,但它们往往来自拥有 AI 产品并希望推动销售的公司。 悲观派观点:开发者的失望 开发者社区不乏 AI 工具失误的案例: 这些事件表明现阶段 AI 工具仍不够可靠。 二、AI 开发工具初创公司 这些公司的工程团队强烈 Dogfood 自家产品: 三、大厂状况 Google Google 构建了紧密集成的工具链,包括 Borg、Cider、Critique、Code Search、Gemini LLM、NotebookLM 等。多名工程师表示: Amazon Amazon 推出了多款 AI 工具: 四、AI 初创企业(非开发工具) 五、资深工程师的看法 六、未解之问 总结 结语:如 Kent Beck 所言,如今“一切成本结构已被重构”,开发者正处在 AI 带来变革的风口,只要主动尝试,就能在这一时代收获创新的红利。
Neuralink 脑机接口植入者增至七人,技术正悄然推进人类-机器交互新纪元
据美国 Barrow 神经学研究所消息,目前已有七位患者接受了由埃隆·马斯克领导的 Neuralink 公司推出的 N1 脑机接口植入。这项技术允许患有颈椎脊髓损伤或肌萎缩侧索硬化症(ALS)的人仅凭意念即可操控计算机。 Neuralink 于 2025 年 2 月曾披露已有三名患者接受该设备;到 6 月,这一数字增至五名,并在同月完成了 6.5 亿美元的新一轮融资。而如今,Barrow 在推特上确认该数字已攀升至七人,Neuralink 也转发了该消息。 其中六人参与了由 Barrow 医学中心主导的 PRIME 研究项目。该项目在美国亚利桑那州菲尼克斯市展开,旨在验证 N1 植入装置、R1 手术机器人以及 N1 用户电脑应用的安全性与有效性。值得注意的是,目前美国食品药品监督管理局(FDA)尚未批准任何脑机接口设备。 手术过程由定制的机械臂完成,在患者颅骨上钻孔后植入装置。设备通过蓝牙连接至计算机,患者可用意念移动鼠标光标、打字、浏览网页,甚至畅玩电子游戏。首位受试者 Noland Arbaugh 就是如此操控电脑进行日常活动,他已完全瘫痪,却依然能够编辑网页、撰写文章、处理财务等,实现独立生活。 Arbaugh 表示:“我现在只需想象光标移动至键盘某处并点击,就能完成操作。”虽然他坦言当前的光标控制尚未达到理想的精准度,但他称这段经历是“生命中的一段传奇旅程”,改变了自己的人生态度,也坚定相信未来每个想要 BCI 的人都能拥有一个。他强调,这一技术的推广应以负责任的方式进行。 除 Arbaugh 外,其他已知患者还包括: Neuralink 目前仍在继续招募参与者,用户可在线申请加入测试。 该公司正面临来自 Echo 与 Synchron 等多家脑机接口初创企业的激烈竞争。其中 Synchron 已将其设备植入 10 名患者,且其设备即将成为首个可连接 Apple 设备的脑接口技术。不同于 Neuralink 的颅骨钻孔方式,Synchron…