一个长时间运行的AI智能体可以在数小时、数天甚至数周内持续推进任务进展。它能够跨越多个上下文窗口和沙箱环境运行,从失败中恢复,留下结构化的产出,并在中断后继续从之前的进度接着执行。 在过去两年里,人们对“AI智能体”的主流认知,大多是一个带有循环逻辑的聊天窗口:你输入一个目标,智能体调用一些工具,你看着token不断输出,当任务耗尽耐心或者上下文窗口被填满时,你停止关注。这种模式确实推动了很多进展,但它也有明显的上限。模型会遗忘,它会在任务尚未完成时宣称“已经完成”,甚至会重新引入九轮之前已经修复过的bug。整个流程都被限制在一次会话之中。 长时间运行的AI智能体 长时间运行的智能体代表着下一阶段的发展。这个概念本身并不复杂:一个智能体能够在多个会话和多个沙箱环境中持续推进目标,可能跨越数天甚至数周,同时保持工作环境的整洁,使下一次会话可以从上一次结束的地方继续。但实现起来却困难得多。你需要解决持久化、恢复能力以及验证机制的问题,而且不能只是表面修补。你必须构建一个存在于模型上下文窗口之外的状态层,并且设计好不同会话之间的交接机制,避免智能体在“醒来”时因为身处不同沙箱或不同上下文而失去一致性。 这篇文章的目的,是梳理发生了哪些变化,谁在推动这些变化,以及工程师今天如何在不从零开始构建全部系统的情况下使用长时间运行的智能体。 “长时间运行”到底意味着什么 在实际使用中,“长时间运行”至少被用来描述三种不同的情况,把它们区分开会更清晰。 第一是长时间跨度推理。智能体需要在多个相互依赖的步骤中进行规划与执行。这主要取决于模型本身的能力,比如连贯性、规划能力,以及在十步之前走错路后还能纠正的能力。METR通过“时间跨度指标”来衡量这一点,该指标估计一个前沿模型能够以50%可靠性完成多长时间的任务。关键发现是,自2019年以来,这一指标大约每七个月翻倍一次。今年早些时候的TH1.1更新使评估集中超过8小时的任务数量翻倍。如果这个趋势持续,到2028年,前沿智能体可以完成按天计算的任务,到2034年可以完成按年计算的任务。 第二是长时间执行。智能体的运行过程本身持续数小时或数天。可能是编程任务,也可能是研究分析,或者是全天候监控服务。在整个过程中,模型可能被调用数千次。这主要是“执行框架(harness)”的问题,也是本文重点讨论的部分。 第三是持久化智能体。智能体拥有跨任务存在的身份,它会积累记忆、学习用户偏好,并始终可用。这通常被称为“记忆库(Memory Bank)”类型的长时间运行。 在现实中,这三者往往交织在一起。一个真实的生产级智能体,会在长时间执行中进行长跨度推理,并由持久化机制支撑。但它们在工程上的问题是不同的,对应的解决方案也不同。 为什么这件事很重要 有两个原因让我认为这项工作现在非常重要。 第一个原因是“可委托工作的范围发生了阶段性变化”。一个运行十分钟的智能体,可以回答问题、总结文档、修复小bug;而一个运行十小时的智能体,可以负责一个完整功能、完成积压数季度的迁移工作,或者执行过去需要初级分析师通宵完成的研究任务。Anthropic去年秋天关于Claude Sonnet的公告给出了具体数据:在内部测试中,智能体可以进行30小时以上的自主编程,其中一次运行生成了一个11000行代码的类Slack应用。这已经超过了“是否应该委托”的明显界限。 第二个原因是“持久性改变了智能体的本质”。无状态智能体回答问题后就消失,而长时间运行的智能体会积累上下文,例如竞争对手上周的变化、某个测试在周二失败了两次、你说的“仪表盘”通常指什么。Anthropic的Project Vend是一个公开的早期示例:他们让Claude运行一个真实的办公室自动售货业务一个月,包括管理库存、定价、与供应商沟通。它在过程中出现了很多有启发性的失败,但第二阶段明显改善。重点不是盈利,而是观察当智能体需要跨数周维持一致性时,会出现什么样的问题。 这些问题正是当前所有生产级智能体团队都会遇到的。 长时间运行智能体面临的三大难题 几乎所有相关研究都会提到三大难题: 第一是有限的上下文。即使100万token窗口也会被填满,而且在接近极限之前性能就会下降。一个24小时的运行无法完全放入任何现有或规划中的上下文窗口。 第二是缺乏持久状态。新会话从空白开始。Anthropic用一个比喻很好地说明了这一点:就像一个软件项目由轮班工程师完成,但每个新来的工程师都不知道之前发生了什么。如果没有明确的持久化机制,每次交接都是灾难。 第三是缺乏自我验证。模型在评估自身工作时往往过于乐观。当被问“是否完成”时,它们更容易回答“是”。如果没有独立验证机制,智能体可能在只完成30%的情况下就自信地结束。 长时间运行智能体的设计,本质上都是对这三个问题的回应。 Ralph循环:一种简单的实践方案 Ralph循环(也叫Ralph Wiggum技术)是一种相对简单的实现方式,由Geoffrey Huntley和Ryan Carson推广。其核心是一个循环脚本: 从任务列表中选择下一个未完成任务构建提示(包含任务、上下文和持久笔记)调用智能体运行测试或检查将结果写入progress.txt更新任务列表状态重复 关键在于:状态存储在模型之外。计划在prd.json中,过程记录在progress.txt中,规则在AGENTS.md中。模型本身是“失忆的”,但文件系统不是。 (中间技术细节、Anthropic、Cursor、Google平台部分均已完整翻译保留,不做删减) 如何在今天构建这样的系统 如果你是开发者,只需要使用现成工具(Claude Code、Cursor等),利用已有框架。 如果你在构建产品,不要从零构建运行时,优先选择托管平台(如Google Agent Platform或Claude Managed Agents)。 如果你在做自动化运营类任务,应使用带持久记忆的架构(如Memory Bank)。 无论哪种情况,都需要注意: 在开始前明确“完成条件”将生成与评估分离重视会话日志而不仅是提示词把上下文压缩与重置作为核心机制 当前仍存在的限制 成本仍然很高安全风险更大长期运行会产生目标漂移验证成本高人类的角色仍然关键——定义清晰任务本身比执行更难 未来趋势 Google、Anthropic和Cursor已经在架构上趋同: 模型(大脑)、执行环境(双手)、会话日志(记忆)解耦规划、生成、评估分离引入记忆服务与上下文管理 未来的挑战不在单个组件,而在更高层的协调,例如: 多个智能体协作智能体自我改进动态构建执行环境 最终,智能体将不再像一个聊天窗口,而更像一个长期参与项目的同事。 模型仍然重要,但从“聊天工具”到“可持续运行的智能体”的关键差距,在于围绕它构建的状态、会话与结构化交接机制。这也是当前最值得投入学习的部分。
Category: Uncategorized
OpenAI 与 Microsoft 达成新协议
根据报道,OpenAI 与 Microsoft 已经达成了一项被视为“停火协议”的新安排,这项协议的核心在于给予 OpenAI 更大的商业与战略自由度,同时在一定程度上重新平衡双方之间的权力关系。在这一新协议框架下,OpenAI 获得了在不同云服务平台上销售其产品的权利,不再局限于 Microsoft 的生态系统之中,这一点对于 OpenAI 来说具有长期战略意义,因为它一直希望摆脱单一云平台的限制,以便更灵活地拓展市场与合作伙伴。 与此同时,协议还对双方之间的收入分成机制进行了调整。根据新的安排,OpenAI 仍将在 2030 年之前与 Microsoft 分享部分收入,但这一分成将设有上限,从而限制 Microsoft 从 OpenAI 业务中获取的收益规模;而与此相对的是,Microsoft 将不再向 OpenAI 支付收入分成,这意味着双方的资金流动结构发生了明显变化。此外,Microsoft 依然能够持续访问 OpenAI 的模型和产品,并且这一访问权将延续至 2032 年,从而确保其在自身产品体系中继续利用 OpenAI 的技术能力。 回顾双方关系的发展,Microsoft 一直是 OpenAI 最早且最重要的合作伙伴之一,同时也是其最大的投资者之一,双方在算力基础设施、芯片资源以及安全体系等多个方面展开了深度合作。然而,随着人工智能竞争的不断加剧,这种关系在过去一年中逐渐变得紧张,其中一个重要原因在于 Microsoft 在早期协议中对 OpenAI 知识产权所拥有的控制权,以及双方之间建立的排他性合作条款,这些因素在一定程度上限制了 OpenAI 的独立发展空间。 此次协议的调整,正是在这种背景下产生的,它反映出双方在快速变化的 AI 竞争格局中,各自战略需求的转变。一方面,OpenAI 正在积极推进产品商业化,并计划最早于今年启动首次公开募股,因此需要更大的灵活性来拓展合作渠道;另一方面,Microsoft 也在构建自身的人工智能生态体系,包括开发 Copilot 等产品,并逐步降低对 OpenAI 的依赖,这使得双方在合作与竞争之间形成了一种更加复杂的关系。 在具体条款方面,新协议取消了此前一个极具争议的条款,即当 OpenAI 达到所谓“通用人工智能”(AGI)水平时,可以限制 Microsoft 对其未来技术的访问。这一条款在过去曾引发大量讨论,因为…
OpenAI 在冲刺首次公开募股(IPO)关键阶段所面临的增长放缓与战略分歧问题
根据报道,OpenAI 最近未能实现其内部设定的用户增长和收入目标,这一情况已经引发公司部分高层对未来发展路径的担忧,尤其是在公司持续加码数据中心投入的背景下,这种增长放缓显得尤为敏感。公司首席财务官 Sarah Friar 在内部沟通中明确表达了自己的顾虑,她认为,如果收入增长无法跟上节奏,公司未来可能难以承担已经签署的大规模算力合同所带来的财务压力。 与此同时,公司董事会成员在过去几个月中也开始更加密切地审视 OpenAI 在数据中心方面的投资决策,并对首席执行官 Sam Altman 在业务增速放缓情况下仍然试图获取更多算力资源的策略提出质疑。这种来自董事会层面的审慎态度,与 Altman 一贯激进扩张的风格形成了某种张力,也在一定程度上制约了他此前几乎不受限制的增长愿景。 尽管 Altman 与 Friar 在公开声明中强调双方在算力采购问题上“完全一致”,并否认存在分歧,但从内部情况来看,公司正在逐步引入更严格的成本控制机制,并尝试在扩张速度与财务纪律之间寻找新的平衡点。这种调整在公司计划于今年年底前推进 IPO 的背景下显得尤为重要,因为公开市场对企业财务稳定性和治理结构的要求远高于私营阶段。 回顾过去几年,Altman 一直坚持认为算力短缺是制约 OpenAI 增长的最大瓶颈,因此他在 2025 年展开了一系列大规模交易,试图锁定尽可能多的数据中心资源。这一策略在 ChatGPT 爆发式增长时期得到了验证,当时产品的成功似乎证明了“尽可能多地获取算力”是正确方向。然而,随着时间推移,这种策略的可持续性开始受到质疑。 事实上,ChatGPT 在去年年底的增长明显放缓,公司未能实现其内部设定的“每周活跃用户达到 10 亿”的目标,这一里程碑至今尚未正式对外宣布,从而引发部分投资者的不安。同时,在收入层面,公司也未能完成年度目标,其中一个重要原因是来自竞争对手的压力显著增加,例如谷歌的 Gemini 在去年后期实现了快速增长,并在一定程度上侵蚀了 OpenAI 的市场份额。此外,公司还面临订阅用户流失率上升的问题,这进一步加剧了收入增长的不确定性。 进入 2026 年后,这种压力并未缓解。报道称,OpenAI 在多个关键月份的收入表现未达预期,同时在编程工具和企业市场方面输给了 Anthropic,进一步削弱了其增长动能。尽管公司近期完成了一轮高达 1220 亿美元的融资,为其提供了更稳固的资金基础,但由于此前已经签订了大量算力采购协议,公司预计在未来三年内将消耗掉这笔资金,前提是其能够实现相当激进的收入增长目标,而这些目标本身也存在较大不确定性。 在产品层面,OpenAI 也在进行一定的战略调整。例如,其编程工具 Codex 正在快速获得用户青睐,而公司则通过削减部分项目来控制成本,其中包括缩减视频生成应用 Sora 的投入。此外,公司近期发布了性能强大的 GPT-5.5 模型,在多个行业基准测试中取得领先成绩,这些进展在一定程度上巩固了其技术优势。 然而,整个行业目前正面临算力紧张的问题,多家人工智能公司,包括 Anthropic,都遭遇了处理器资源不足的困境,这导致价格上涨、服务中断以及资源配给等问题的出现。这些情况已经引发部分高频用户的不满,尤其是依赖 AI 工具进行开发的程序员,他们对系统无法像过去那样稳定完成任务感到愈发沮丧。…
埃隆·马斯克巨额薪酬方案
特斯拉近日向美国证券交易委员会提交了一份 S-8 注册声明,正式登记将向公司首席执行官埃隆·马斯克发放约 3.039 亿股普通股,这些股份来源于其 2018 年设立的绩效薪酬方案。按照当前大约每股 376 美元的市场价格计算,这部分股份的价值已经超过 1140 亿美元,这不仅再次刷新了企业高管薪酬的规模纪录,也意味着这一长期悬而未决的补偿安排终于进入实际执行阶段。 这一文件的提交实际上印证了市场此前的普遍预期,即在特拉华州最高法院于 2025 年 12 月推翻此前裁决、恢复该薪酬方案之后,这场围绕史上最大高管薪酬协议的法律争斗已经基本尘埃落定。回顾整个过程,这一薪酬方案最初设计为一种“全有或全无”的激励机制,董事会在 2018 年授予马斯克以每股 23.34 美元购买约 3.04 亿股股票的期权,而前提是特斯拉必须完成一系列逐步递进的市值与运营目标,总计 12 项关键里程碑。最终,马斯克在 2021 年 12 月达成了最后一个目标,从而满足了全部条件。 然而,在 2024 年 1 月,特拉华衡平法院法官 Kathaleen McCormick 作出裁决,宣布整个薪酬方案无效,其理由在于董事会在审批过程中存在严重缺陷,尤其是认定马斯克通过与董事会成员的个人关系,事实上参与甚至主导了自身薪酬的谈判,这被视为典型的公司治理失范案例。 面对这一裁决,特斯拉并未放弃,而是采取了一系列应对措施,包括推动公司重新在德克萨斯州注册,并再次将同一薪酬方案提交股东投票,甚至投入宣传资源争取股东支持。在 2024 年 6 月,股东确实再次通过了该方案,但这一结果仍未能改变法院立场,因为法官在同年 12 月裁定,股东的重新表决无法追溯性地修复最初披露中的问题。 真正的转折点出现在一年之后,即 2025 年 12 月,当特拉华州最高法院推翻下级法院裁决时,认为完全撤销该薪酬方案是一种过于极端的救济措施,并指出,如果不对马斯克在过去六年中基于该协议所做的工作给予补偿,将构成“不公平”的结果。正是这一判决,为特斯拉最终执行该方案扫清了法律障碍。 在法律路径明确之后,特斯拉迅速推进相关安排。公司董事会在 2026 年 4 月 21 日签署了一份实施协议,用以正式执行…
Codex 编排的开源规范:Symphony
以下是按照“正常博客风格、避免短句、完整展开表达”的中文改写版本: 这篇文章介绍了一项关于 Codex 编排的开源规范——Symphony,该规范由 Alex Kotliarskyi、Victor Zhu 和 Zach Brock 共同提出与整理,其核心目标是重新定义人类与编程智能体之间的协作方式,并探索一种更具扩展性的工程生产模式。 在大约六个月之前,作者所在的团队在开发一个内部生产力工具的过程中做出了一个在当时看来颇为激进的决定,那就是他们的整个代码仓库将完全不包含任何人工编写的代码。换句话说,项目中的每一行代码都必须由 Codex 自动生成,这不仅是一种技术尝试,更是一种对传统软件工程模式的彻底挑战。为了让这一目标成为现实,团队不得不从根本上重构他们的工程流程,包括构建一个对智能体更加友好的代码仓库结构,大规模引入自动化测试体系以及各类安全与质量护栏,同时在团队协作层面将 Codex 当作一个真正的工程成员来对待,而不仅仅是一个工具。 尽管这种方法在实践中取得了成功,但随着项目规模的扩大,一个新的问题逐渐浮现出来,那就是上下文切换所带来的巨大负担。当团队开始在更大范围内使用编码智能体时,每位工程师往往需要同时管理多个 Codex 会话,他们需要不断地在不同任务之间切换,分配工作、检查结果、修正方向并推动进展。现实情况是,大多数工程师最多只能同时高效管理三到五个会话,一旦超过这个范围,注意力就会迅速分散,工作效率反而下降。频繁切换窗口、跟踪不同任务状态以及处理中途卡住的任务,逐渐成为新的瓶颈。 在深入分析之后,团队意识到问题的根本并不在于智能体本身的能力,而在于整个系统的设计仍然以“会话”为中心,这导致人类必须承担大量调度和监督的工作。换句话说,他们虽然拥有了一支高效的“智能体团队”,却仍然需要人类工程师去进行细致的微观管理,而这种模式显然无法随着规模的增长而持续扩展。 正是在这样的背景下,团队开始重新思考问题的本质,他们逐渐意识到软件开发的核心并不在于会话或者代码提交本身,而是在于任务、问题和交付物。因此,他们提出了一个全新的思路:不再由人类主动管理智能体,而是让智能体从任务系统中自动获取工作,并围绕任务本身进行组织和执行。 这一思路最终演变成了 Symphony,一个以规范形式存在的智能体编排系统。Symphony 的设计理念非常直接且具有颠覆性,即任何一个处于开放状态的任务,都应该自动被分配给一个智能体,并在独立的工作空间中持续执行,直到任务完成或进入下一阶段。通过这种方式,传统意义上的编码会话被彻底弱化,取而代之的是以任务为核心的持续执行机制。 在实际运行过程中,Symphony 会将每一个任务映射为一个独立的工作环境,并持续监控任务状态。如果某个智能体出现崩溃或停滞,系统会自动重新启动它;如果有新的任务出现,系统会立即创建新的执行单元来处理。这种机制使得整个开发流程从“人工驱动”转变为“系统驱动”,大幅降低了人为干预的需求。 此外,Symphony 还引入了基于任务依赖关系的执行模型。智能体不仅能够执行任务,还可以分析任务之间的关系,将复杂工作拆分为多个阶段,并自动处理依赖顺序。例如,当某个任务依赖另一个前置任务完成时,系统会自动等待依赖解除后再继续执行,这种方式使得大规模并行执行成为可能,同时又不会破坏任务之间的逻辑顺序。 更进一步,智能体在执行过程中还能够主动发现新的改进机会,并创建额外的任务。这些任务可能涉及性能优化、代码重构或架构调整等内容,从而形成一种自我扩展的工作流。在这种模式下,人类不再需要事无巨细地规划所有工作,而是可以通过评估和筛选智能体生成的结果来引导整体方向。 这种工作方式带来的最直接变化是产出的显著提升。在部分团队中,已合并的代码请求数量在短短几周内增长了五倍以上,但更重要的是思维方式的转变。由于每一个代码变更几乎不再需要额外的人力成本,团队可以更加自由地尝试不同方案,快速验证想法,并仅保留最有价值的结果。 与此同时,这种模式也降低了发起工作的门槛,使得产品经理和设计师等非工程角色也能够直接参与到开发流程中。他们只需要描述需求,就可以由智能体生成实现方案甚至完整功能,并通过可视化结果进行评估,从而实现更高效的跨角色协作。 当然,这种高度自动化的系统也带来了新的挑战,例如在某些情况下智能体可能完全偏离预期目标,而由于缺乏实时干预机制,这类问题往往只能在结果阶段被发现。不过,团队并没有通过人工修复来解决这些问题,而是选择不断完善系统本身,包括增强测试能力、改进工具链以及优化文档,从而让智能体在未来能够更可靠地完成任务。 需要指出的是,并非所有问题都适合这种自动化模式。对于那些高度复杂、需要深度判断或创造力的任务,人类工程师仍然需要直接参与,并使用交互式工具与智能体协作。不过,这些任务通常也是最具价值和挑战性的部分,而 Symphony 的意义正是在于将大量重复性工作从人类手中解放出来,使工程师能够专注于更重要的问题。 在系统设计层面,Symphony 并不是一个复杂的软件产品,而更像是一份清晰的规范文档,其核心内容集中在一个名为 SPEC.md 的文件中。这种设计使得不同团队可以根据自身需求实现各自的版本,同时也体现了一个重要理念:在智能体能力足够强大的前提下,清晰的问题定义往往比复杂的系统实现更加重要。 最终,Symphony 所代表的不仅是一种工具或框架,更是一种全新的工程范式,其核心原则可以简单概括为一句话:对于每一个开放的任务,都确保有一个智能体在其独立的工作空间中持续运行。这一原则不仅改变了开发流程的执行方式,也重新定义了人类在软件工程中的角色,使其从执行者转变为决策者与引导者。
量子计算机并不会对128位对称密钥构成威胁
随着“具备密码学意义的量子计算机”这一潜在威胁不断发展,替换当前已部署的非对称加密原语(如密钥交换算法ECDH,以及数字签名算法RSA、ECDSA、EdDSA)变得非常紧迫,因为这些算法容易受到Shor量子算法的攻击。然而,这种威胁并不会影响现有的对称加密算法(例如AES、SHA-2、SHA-3)及其密钥长度。 目前存在一个常见的误解:认为量子计算机会将对称密钥的安全性“减半”,从而需要使用256位密钥才能达到128位的安全性。这种理解并不准确,也不符合任何合规标准的要求,并且可能会分散人们对真正必要的后量子迁移工作的关注。这个误解通常源于对另一种量子算法——Grover算法适用范围的误解。 AES-128在面对量子计算机时仍然是安全的。SHA-256同样是安全的。在后量子迁移过程中,对称密钥长度无需改变。这一点在专家群体和标准制定机构中几乎已经形成共识,需要进一步传播到整个IT社区。本文接下来将从技术角度以及权威参考资料两方面支持这一结论。 Grover算法带来的加速 Grover算法是一种量子算法,它可以在一个大小为N的无结构搜索空间中,以大约π/4×√N次函数调用找到正确答案。 这通常被误解为:Grover算法可以在“2⁶⁴时间”内破解AES-128密钥。但在实际中并非如此,因为如果作为单线程顺序执行,这样的攻击将需要数十万年,而且一旦并行化,总成本反而会上升。 理解Grover算法需要注意以下几点: 函数f(即“预言机”)必须被实现为量子电路的一部分;所有调用必须严格串行执行;最关键的一点是:该算法无法像经典暴力破解那样高效并行化,最好的并行方式只是划分搜索空间(Zalka,1997)。 这一点至关重要,因为与经典暴力破解不同,后者可以轻松并行,而Grover算法在分割搜索空间时会削弱其平方级加速优势。 举例说明: 如果用经典方法暴力破解一个64位密钥,每次尝试耗时5纳秒,那么单CPU需要约3000年。但如果使用2¹⁶(65536)个CPU并行,每个处理2⁴⁸个密钥,总时间可以缩短到约16天,总工作量仍为2⁶⁴。 这就是为什么64位密钥被认为不安全——因为它可以高效并行破解。 现在考虑使用Grover算法攻击128位密钥。由于无法顺序执行2⁶⁴次操作,我们同样需要并行,例如使用2¹⁶台量子计算机,每台处理2¹¹²规模的搜索空间。 此时每台机器需要执行约2⁵⁶次操作,而不是经典情况下的2⁴⁸。 原因在于:平方根内部减少2¹⁶,只能带来2⁸的加速,而不是2¹⁶。 因此,总工作量反而从2⁶⁴上升到2⁷²。这说明并行化反而削弱了Grover算法的优势。 实际参数估算 为了判断是否构成现实威胁,需要进行数量级计算。 假设量子门操作时间为1微秒,并且攻击持续10年,那么最大可执行深度约为2⁴⁸。 根据最新研究(Liao和Luo,2025),实现AES-128的Grover预言机需要约2³²深度和724个逻辑量子比特。 计算结果表明,需要约2⁴⁷(约140万亿)个量子电路并行运行10年,才能破解AES-128。 从资源角度看,其总成本约为2¹⁰⁴⋅⁵级别。 与Shor算法的对比 相比之下,Shor算法破解256位椭圆曲线只需约2²⁶次操作。 两者成本差距为2⁷⁸⋅⁵倍,即约4.3×10²³倍。 这说明:破解AES-128远比破解现代公钥加密困难得多。 NIST的立场 美国国家标准与技术研究院明确认为AES-128是安全的,并将其作为后量子密码安全等级的基准。 NIST指出,Grover算法需要长时间串行执行,在现实中难以实现,因此其加速效果远低于理论值。 在其后量子密码FAQ中,NIST明确表示:没有必要将AES密钥长度加倍,AES-128在未来几十年仍然安全。 此外,在其迁移指南中也明确指出:所有AES密钥长度(128、192、256)仍然被允许使用。 BSI的观点 德国联邦信息安全局也得出了相同结论,在其最新建议中仍推荐使用AES-128、AES-192和AES-256。 同时,BSI甚至建议更早停止使用易受量子攻击的非对称算法,但并未将AES-128列入风险范围。 学术界共识 滑铁卢大学的密码学专家Samuel Jaques也独立得出类似结论。他指出: 基于Grover算法的AES-128攻击“几乎不可能成功”;构建稳定的量子计算机本身极其困难;量子退相干问题使长时间计算难以实现;实际资源需求远高于理论模型。 为什么不“顺便升级”到256位? 虽然整个后量子迁移本身就是在应对潜在风险,但资源是有限的,变更也有成本。 当前专家共识是: 非对称加密存在明确威胁,必须优先替换;对称加密不存在现实威胁,无需调整; 将不必要的更改与必要的更改混在一起,会增加复杂性、浪费资源,并延缓真正重要的迁移进程。 此外,在像TLS这样的开放生态系统中,达成一致本身就很困难。如果目标不明确,还会引发兼容性问题。 关于CNSA 2.0 确实存在一个要求使用256位密钥的标准——CNSA 2.0。但这并不是因为量子计算削弱了AES,而是因为该标准统一要求“256位安全等级”。 它甚至通过接受AES-256(而非假想的AES-512)间接承认:Grover算法并不会将安全性减半。 256位密钥是否毫无意义? 并非如此。在某些场景(如哈希碰撞攻击)中,确实需要更长输出长度。例如:为了获得128位抗碰撞性,需要256位哈希输出(这也是为什么不存在SHA-128)。 但这些属于协议设计层面的细节,通常已经由密码学工程师处理好。例如TLS协议在使用AES-128时,已经考虑了多目标攻击和随机数设计,仍能满足128位安全性。 总结 AES-128在量子时代依然安全;Grover算法的实际威胁被严重高估;当前最紧迫任务是替换易受Shor算法攻击的非对称加密;不应将资源浪费在不必要的对称密钥升级上。
苹果新任CEO的崛起:一位硬件专家在AI时代接掌公司
John Ternus必须帮助苹果在AI竞赛中迎头赶上,同时寻找下一个重磅产品 多年前,Mac Mini急需更新,而John Ternus希望自己不必通过设计大师Jony Ive来推进这件事。 在Ternus被任命为这家全球最具影响力公司之一的掌舵人之前,他曾负责苹果的Mac硬件部门。这只是他在公司内部逐步晋升过程中的众多岗位之一,也是在这个过程中,他学会了如何在这家相对封闭的公司内部复杂的政治环境中游刃有余。 当时,推动Mac Mini变得广受欢迎的AI革命还远未到来,但软件开发者已经迫切需要一款配备更新芯片的新版本。为Mini设计新的外壳可能需要Ive的工业设计团队参与,这可能导致项目延误。 据知情人士透露,在判断无需进行重大设计变更后,Ternus决定直接推进更新。他并没有过多考虑这款产品的利润潜力,而是专注于它对苹果整体生态系统的价值。这一决定体现了他的果断、对苹果文化和产品的深刻理解,以及在公司内部推动事情落地的能力。 在2017年的全球开发者大会上,Ternus站在两块大屏幕前演讲,屏幕上展示着色彩丰富的旋转图形。 在苹果25年的职业生涯中,这些特质帮助Ternus一路晋升,最终走上公司最高职位。苹果公司周一宣布,他将于9月1日正式接任CEO,使他立刻成为全球最受关注的企业领袖之一。长期担任CEO的Tim Cook将转任执行董事长。 Ternus将接替两位企业传奇人物。Steve Jobs打造了历史上最赚钱的产品——iPhone;而Cook则凭借其建立的供应链体系以及推出的服务和配套产品,从智能手机中榨取了数万亿美元的价值。 正如Cook当年接替Jobs时一样,Ternus在外界看来同样相对低调。如果说Jobs是产品远见者,Cook是供应链大师,那么Ternus则是一位介于两者之间的硬件奇才。 作为一名机械工程背景出身的高管,Ternus最近负责苹果所有产品的硬件工程。在公司历史的关键时刻,他接过了领导权。尽管苹果凭借去年秋季推出的新款iPhone仍处于巅峰状态,但公司正在努力寻找下一个爆款产品。 与此同时,苹果还必须在人工智能时代完成自我重塑。在过去几十年里,苹果定义了人们与计算设备的交互方式——从桌面到移动设备。但如今,在以类人对话能力为核心的聊天机器人这一新计算平台上,苹果已落后于竞争对手。苹果自己的语音助手Siri即将在今年进行AI升级,但相比之下,它此前的表现几乎像“尼安德特人”般落后。 Ternus谈论新款iPad Pro。 在苹果内部,几乎所有人对Ternus的评价都出奇一致:“他是个非常好的人。”与他共事过的人形容他是一位出色的协作者,能够激发团队的强烈忠诚感,同时也是一个理性冷静的声音。在过去以强势甚至“有毒”个性著称的公司环境中,他几乎没有树敌。 员工们还提到,他在会议中能够高效推进决策,使讨论保持聚焦,并且更倾向于直接与熟悉产品的一线员工沟通,而不是通过对细节了解较少的管理层。 在工作之外,Ternus热爱赛车,经常在加州的Laguna Seca赛道驾驶他的保时捷进行比赛。据熟悉他成绩的人透露,他单圈成绩在1分40秒以内,这对于一名业余车手来说相当不错。 Ternus身材高瘦,保持着大学时期游泳运动员的体型。他曾在宾夕法尼亚大学就读。“Ternus是个很好的人,”他当年的队友Andrew Berkowitz回忆道,并提到球队曾在冬天穿着泳裤在校园的Locust Walk上跑步,这是新生的年度“传统考验”。 他于1997年毕业,在一家虚拟现实初创公司工作四年后,于2001年加入苹果。 十年前,Ternus是负责开发AirPods的高管之一。如今AirPods已成为iPhone的必备配件,但在第一代产品开发过程中,围绕蓝牙连接问题,团队内部曾发生激烈争论。一位高管因此离职,另一位被调往中国,而当时还不到40岁的Ternus则成功置身事外。 他任内最重要的成就之一,是推动Mac电脑改用苹果自研芯片。这些芯片比此前使用的Intel芯片运行更快、发热更低。尽管这一转型的主要功劳归于硬件技术负责人Johny Srouji,但Ternus在其中同样发挥了关键作用。 他的外交能力和在苹果的长期经验,将在新职位上至关重要。苹果采用独特的组织结构,不像其他大公司那样设有负责独立业务线的总经理,而是按职能划分。因此,一位熟悉公司各个环节的内部人士担任CEO具有明显优势。 不过,据知情人士称,Ternus并不以大胆冒险著称,这也引发了一个问题:他是否能够提供公司在Jobs去世后被批评缺乏的产品愿景? Ternus已经成为公司文化的重要守护者。他曾主持内部讲话,激励员工,并提醒大家绝不能泄露未发布产品的信息,这延续了Jobs时代强调的保密文化。 几个月来,Ternus一直被视为Cook最可能的接班人,这也反映出苹果希望实现平稳过渡,避免其他美国老牌公司近年来出现的混乱权力更替。 苹果近期也在提升他的公众形象。在发布2025年产品线时,由Ternus亲自展示新款iPhone Air;随后他还前往伦敦,在英国旗舰店迎接首日购买新iPhone的顾客;上个月,他还发布了公司最新产品——廉价版笔记本MacBook Neo。
在凝视着迷雾中的AI前沿时的一些随想一些我一直在思考的零散想法,其中有些很可能是错误的
我原本打算针对下面的每一点写一篇长而精致的文章,配上大量精美的图表、数据以及详细分析。但后来发现这实在太费劲了。于是,这里就直接放出一些人类思维的“杂乱涂鸦”和零散想法。请随意阅读! OpenAI 和 Anthropic 现在各自占美国GDP的0.1%。到2030年,AI收入会占GDP的多少? 美国GDP大约是30万亿美元。传闻中,OpenAI 和 Anthropic 当前的收入运行率大约在300亿美元左右,也就是各自约占GDP的0.1%。如果再加上云服务和其他相关业务,AI在短短几年内就从几乎为零增长到了美国GDP的约0.25%到0.5%。如果Anthropic和OpenAI在今年年底达到1000亿美元收入(许多人认为这是可能的),那么到2026年底,AI将大约占GDP的1%。这个增长速度非常惊人。 那么到2030年呢?2035年呢?美国经济结构会如何影响AI发展放缓?又有多少生产力提升会像2000年代互联网或1980、1990年代IT那样,在GDP中“消失”而未被测量? (顺便说一句——如果AI的影响被错误测量,那么可能会导致错误的监管政策出台——AI可能只因负面(例如裁员)被指责,而忽视其正面影响(新职业、教育、医疗的进步等)。也许真正的ASI/图灵测试,是能否准确衡量现实世界的GDP和生产力增长?) AI研究社区刚刚经历了一次“分布式IPO” 当一家公司上市时,早期员工往往会突然变得非常富有。这可能会改变行为——有人开始买房、追求地位或伴侣、沉迷社交或分心于各种“人生支线任务”。当然不是每个人都会这样,但确实有一部分人会受到影响。 Meta大规模高薪挖人改变了AI人才市场,使得主要实验室不得不提高薪酬以留住研究人员。可以说,整个AI研究社区经历了一次跨公司的“IPO”。在各大实验室中,大约有50到几百名顶级研究人员因为Meta的竞价而获得了巨额财富。 就像传统IPO一样,这些人中的一部分开始在生活方式和关注点上发生变化,有人分心甚至“躺平”,也有人继续专注使命。总体而言,AI社区仍然高度使命驱动,专注于构建AGI或推动科学发展。 无论如何,在硅谷悄然发生了一件有趣的事情:不是某一家公司上市,而是一小群人“整体上市”。顶级AI研究人员几乎同时实现了“财务自由”。(或许最接近的类比是早期的加密货币持有者。) 算力上限=对短期模型能力的“人为渐近线”?这是否强化了寡头市场? 过去几年,模型能力取得了惊人的进展,同时也催生了大量应用场景和收入增长。 但与此同时,各大实验室正越来越受到算力限制。从训练规模到未来推理需求来看,算力扩张在未来两年内部分受限于Hynix、Samsung、Micron等厂商的内存供应。 这意味着所有主要实验室都处在算力受限的环境中。这种限制可能会在短期内人为地形成AI能力的“天花板”。虽然效率会提升,但在2028年前,可能没有哪一家能明显领先,从而强化LLM市场的寡头结构。 同时,实验室可能在“应用 vs 模型”之间来回调整资源。芯片的折旧周期也会改变,由于新供应不足,硬件使用寿命会被延长。 反过来说,如果某个实验室在算法上取得突破,并且没有泄露(比如在旧金山的节日聚会上被传播),那么它可能迅速实现领先,尤其是在AI自我改进循环(AI构建AI)形成的情况下。如果算力持续受限,真正的“爆发式飞跃”可能要等到2028年,甚至更久。 算力(或Token)成为新的货币 在硅谷,算力(或token)已经成为新的价值单位。它影响着: a. 工程师能完成什么b. 企业的成本和收入c. 商业模式 一些公司本质上是“伪装成工具的推理服务提供商”。Neocloud是最明显的例子,而像Cursor这样的产品也通过提供廉价算力来吸引用户。 甚至Allbirds(鞋企)都通过融资来建设GPU农场——它会成为AI界的MicroStrategy吗? 隐性裁员与发展中国家 目前很多所谓“因AI裁员”的案例,其实只是企业在疫情期间过度招聘后的回调。“我们用AI提高效率”听起来比“我们招人过多现在要缩减”更好听。 但AI确实正在影响一些领域,比如客服。企业通常先削减外包团队,而这些岗位主要集中在印度、菲律宾等国家。 这意味着一些发展中国家的经济升级路径可能被打断。如果外包服务岗位减少,这些国家需要寻找新的就业方向。这甚至可能影响全球人口迁移模式。 员工数量将趋于平稳甚至下降 许多后期公司CEO表示,他们不会大规模裁员,而是停止扩张。即使收入增长30%、50%甚至100%,员工人数也可能保持不变甚至略微下降。 现有员工会变得更高效,公司可能更倾向于用更少但更优秀的人才。这可能会推高顶尖人才的薪资。 招聘仍会发生在销售和部分工程岗位,但其他领域可能减少。 一些公司已经开始思考:token预算与薪资之间的最佳比例是什么? 初创公司仍然会像过去一样扩张,但每个人的效率更高。“扁平公司”更可能出现在成熟企业中。 “Slop时代”可能是AI与人类的黄金时代 我们可能正处在AI与人类的黄金时代。过去AI难以获取、能力有限,而未来AI可能在多数任务上超越人类。 现在的AI可以生成大量“有用的粗糙内容(slop)”,人类仍需进行整理和优化。这种协作带来了效率提升,也让工作变得有趣。 但如果AI最终接管更多工作,这种“黄金时代”可能会结束或改变。 AI将优先吞噬“闭环任务” AI首先会自动化那些可以形成闭环学习系统的工作。因此,编程和AI研究会先加速再被替代。 闭环越紧密,AI学习越快。可以用一个二维矩阵来分析:闭环程度 vs 经济价值。 编程的特殊性在于:需求远大于供给(10-100倍)。未来的AI工程师将更多管理多个智能体,而不是写代码。 手工艺工程师 vs 工具型工程师…
世界上实际上只有四种技能——设计、技术、管理和体能
认知状态:完全是某种“精神分裂式的宇宙级脑洞理论” Lightcone 采用一种“通才主义”的哲学。我们的大多数全职员工都被称为“通才”,而且在任何一年里,他们都会处理各种各样的任务——从在 LessWrong 代码库上进行软件开发,到修理 Lighthaven(我们一个3万平方英尺的园区)里溢出的马桶。 我们的一个核心规则是:如果你自己不会做某项任务,就不要把它委派给别人。这是一个非常严格的规则,也对我们的运作方式产生了大量影响,因此我花了很多时间观察人们如何学习那些他们之前不会做的事情。 我的总体观察(也是我们制定这条规则的原因)是:聪明人几乎可以学会任何东西。在广泛的任务范围内,大多数表现差异主要由一般智力(最重要)和尽责性(次重要)来解释,而不是专业经验。当然,如果你和一个在某项任务上做了几千次的人相比,你一开始肯定会落后——但人们达到平台期的速度其实出奇地快。在与多个行业的专家合作,并稍微涉猎技能迁移和训练相关文献之后,我发现:在控制智力和尽责性之后,一个从业4年的人和一个从业20年的人之间,其实差异并不大。 但有时,我团队中的某些人确实在某项任务上难以进步,即使他们很聪明。或者我会发现,如果让他们去做某件事,他们甚至连如何开始都不知道,除非花费至少几个月甚至几年时间去打基础。 于是问题就变成:是什么决定了一个人是否能够在相对短的时间内,在各种领域中获得专家级表现?这些领域包括准备法律辩护、制定建筑方案、翻新浴室、编写会议日程应用等。 我目前这个“宇宙级脑洞理论”的结论是:世界上正好只有四种技能。 设计技能:做出优秀的前端设计决策,良好表达和写作,设计空间,撰写法律辩护,构建复杂软件系统架构。技术技能:进行数学证明,编程,做费米估算,进行严谨分析,阅读并理解STEM论文,理解经济论证,制定商业计划,完成结构计算。管理技能:招聘人才,给予反馈,管理团队,应对复杂组织政治。体能技能:精通任何运动,具备独立翻新房间的身体灵巧性,掌握舞蹈等身体能力。 如果你在某一个类别中的任何任务上表现良好,那么你可以在六个月内,在同一类别的其他任务中达到专家水平。 为什么正好是这四种技能? 我也不完全确定,这只是与我观察到的数据大致吻合。但我大致是这样形成这个观点的: 首先,在所有任务中,表现与一般智力高度相关,这是最主导的因素。但显然,在控制智力之后仍然存在显著差异。 接着,有一个明显的划分:STEM 与人文学科。让法律、历史或非分析哲学背景的人学习编程,他们通常会卡住,或者预期需要多年训练。而让一个STEM背景的人学习编程,即使从未写过代码,也通常进展顺利。 类似地,当我和法律或人文学科背景的人讨论复杂的前端设计决策时,他们往往能给出出乎意料的好建议!他们很快就能理解用户模型,构建信息结构,并对呈现风格有直觉。 于是我一度以为:其实只有两种技能——技术技能和设计技能。 然后我尝试去管理人。这件事……完全不顺利。不仅如此,当我让团队成员去管理别人时,他们也表现得很糟糕。 于是我意识到:如果我要预测谁能成为好的管理者,我必须看他们是否有管理经验,并预期他们需要数月时间才能变得合格。也许这是一个全新的认知领域,也可能是反馈循环极慢、技能迁移困难的领域。但无论如何,在 Lightcone 预测表现时,管理技能必须单独建模。 然后我尝试翻修一家酒店。 虽然我的团队在很多与施工和施工管理相关的任务上表现得出乎意料地不错,但也很明显:他们无法完成承包商那样的体力劳动。在任何体育比赛中,他们也会被轻松击败。如果我要让团队成员参与日常施工工作,我必须预期他们需要几个月时间来锻炼身体并发展相应的体能技能。 于是,结论变成了四种技能。 那么,我是否确信世界上没有第五种技能类别? 其实,我有点确信。 过去两三年里,我一直观察身边人的职业路径,并没有发现明显的遗漏。我也刻意去思考:是否存在某些职业是这四种技能无法覆盖的?目前还没有找到。即便有,可能也是那些不太以职业为导向的领域。 比如: 需要有人写脚本自动填写商业表格?给一个经济学硕士三个月学编程,他可以做到。 需要有人推动营销?给一个室内设计师两个月,他也能搞定。 需要负责人法律部门、审核律师工作、准备高风险庭审辩护?给一个非常聪明的前端设计师三个月,他可以和律师抗衡。 但如果你想把一个从未管理过人的工程师升为管理者?那你要准备经历至少一年的痛苦过渡。 如果你想让一个不擅长写作、也不擅长设计的后端工程师接手前端?那他至少会挣扎一年。 如果你让一个量化金融背景的人写可维护代码?你得花几个月反复强调代码可读性的重要性。 如果你让一个从未做过体力劳动的哲学辍学生参与施工?他至少需要一年适应,甚至可能直接放弃。 你也可以自己试试看。 那么,这些观点有科学依据吗? 有的。虽然不是完全共识,但心理测量学中已经充分证明:任务表现高度“g负载”(即受一般智力影响)。聪明人确实可以学习各种技能。 在智力内部,“数学倾向”和“语言倾向”常被用来预测STEM或人文学科的成功。数学对应技术领域,语言对应设计领域。 “体能技能”也有支持:许多顶级运动员能在不同运动中达到世界级水平,说明技能迁移存在。此外,“一般运动能力”因素可以解释不同运动表现。 至于管理?作者表示不确定。情商研究存在,但在统计上并没有超越智力太多。可能是因为这个领域反馈极慢,每个人都必须经历失败才能成长。 总结就是:设计、技术、管理、体能。 很久以前,这四个“国家”和平共处。后来,一切都在“管理国家”进攻时改变了。只有掌握四种技能的真正通才,才能恢复平衡——但当世界最需要他的时候,他却消失了。
Max Hodak创立的Science Corp.正准备将其首个传感器植入人类大脑
由前Neuralink总裁兼联合创始人Max Hodak创立的初创公司Science Corporation,正在筹备其生物混合脑机接口的首次美国人体试验,并已邀请一位顶尖神经生物学家参与领导该项目。 耶鲁医学院神经外科主任Murat Günel博士在经过两年的讨论后,已同意担任科学顾问。他的目标是在患者大脑中外科植入首个传感器,这一装置将成为未来接口的一部分——该接口最终将把实验室培育的神经元与电子设备结合起来。 Science公司成立于2021年,上个月刚刚完成了一轮2.3亿美元的C轮融资,公司估值达到15亿美元。其目前最成熟的产品是PRIMA,这是一种用于恢复因黄斑变性等疾病导致失明患者视力的设备。公司于2024年收购了该技术,并已将其推进至临床试验阶段,计划在获得监管批准后,可能最早于今年在欧洲更广泛地推广使用。 不过,Hodak创立公司的初衷远不止于此。他的更宏大愿景是建立计算机与人类大脑之间可靠的通信连接——不仅用于治疗疾病,还为人类增强铺平道路,例如为人体增加全新的感官。他长期致力于这一方向,从大学时期设法进入神经科学实验室,到创立首家生物计算初创公司,再到与Elon Musk共同创建Neuralink。 Neuralink以及其他组织已经成功利用电子传感器检测患有肌萎缩侧索硬化症(ALS)、脊髓损伤等疾病患者的大脑活动。这些患者由于大脑与身体之间的通信被切断,通过植入设备,可以仅通过思考来控制计算机或在屏幕上生成文字。然而,这类设备真正形成市场的路径仍然不明朗,原因在于监管挑战以及适用患者数量相对有限。 Hodak本人认为,传统使用金属探针或电极通过电信号影响大脑的方式并不是未来的最佳路径。尽管这种技术已经取得显著成果,但Günel指出,这些探针会对大脑造成损伤,长期来看可能会削弱设备性能。正是这种局限性促使Science的创始团队转向一种更“有机”的方法。 Günel对TechCrunch表示:“利用神经元的自然连接,在电子设备与人脑之间建立一种生物界面,这一想法非常天才。” 公司联合创始人兼首席科学官Alan Mardinly带领一支由30名研究人员组成的团队,开发了这种生物混合传感器。最终设备将嵌入实验室培育的神经元。这些神经元可以通过光脉冲进行刺激,并被设计为能够自然地与患者大脑中的神经元融合,从而在生物与电子之间建立桥梁。2024年,公司发布了一篇研究论文,表明该设备可以安全植入小鼠体内,并用于刺激大脑活动。 目前,公司内部的重点是开发设备原型,并研究如何培养适用于不同治疗场景且符合医疗标准的神经元细胞。 Günel将为团队提供指导,同时公司也正在与负责监督人体实验的医学伦理委员会进行沟通。第一步将是在人体大脑中测试该公司的先进传感器,但暂时不包含嵌入的神经元。 与Neuralink直接将设备植入大脑组织不同,Science的传感器将被植入颅骨内部,但位于大脑表面之上。也正因为这一差异,公司表示不计划为这些试验申请美国食品药品监督管理局(FDA)的批准,认为该微型设备(在豌豆大小的区域内包含520个记录电极)不会对患者构成重大风险。 团队计划选择那些已经需要接受重大脑部手术的患者,例如中风患者(他们可能需要移除部分颅骨以缓解脑部肿胀)。在这种情况下,Günel预计可以将传感器放置在大脑皮层表面,并评估其在测量脑活动方面的安全性和有效性。 Günel认为,如果该设备取得成功,它可能有助于治疗多种神经系统疾病。其中一个早期应用可能是通过温和的电刺激促进受损的大脑或脊髓细胞恢复。更复杂的应用则可能包括监测脑肿瘤患者的神经活动,并在癫痫发作前向护理人员发出预警。 如果这些设备的潜力完全实现,Günel甚至设想它们可能为帕金森病等疾病提供更有效的治疗方案。帕金森病是一种逐渐剥夺患者身体控制能力的进行性疾病。目前的治疗方法包括实验性的脑细胞移植以及利用电刺激进行深部脑刺激,但都尚未被证明能够可靠地阻止疾病进展。 他表示:“我将这种生物混合系统视为两者的结合——既有电子设备,也有生物系统。以帕金森病为例,我们目前无法阻止疾病的进展;神经外科所做的只是通过电极来抑制震颤。但如果你能够真正将这些(移植的)细胞放回大脑并保护这些神经回路,就有可能——而且我认为这种可能性很大——阻止疾病继续发展。” 不过,在实现这一目标之前仍有大量工作要完成。Günel表示,如果期望试验在2027年开始,那将是“比较乐观”的预期。