“它是文本的,所以它是可访问的”这一神话 在有视力的开发者中,存在一种根深蒂固的误解:只要应用运行在终端中,它就天然是可访问的。这种逻辑认为,由于没有图形界面、没有复杂的 DOM,也没有 WebGL 画布,内容不过是原始的 ASCII 文本,因此屏幕阅读器可以轻松解析。 现实却完全不同。大多数现代文本用户界面(TUI)往往比设计糟糕的图形界面更不友好。那些本应提升开发者体验(DX)的终端工具——例如 Ink(JS/React)、Bubble Tea(Go)或 tcell——实际上正在破坏盲人用户的使用体验。 架构缺陷:流 vs 网格 要理解这一失败,我们必须区分两种常被混淆的概念:“终端应用”中的 CLI 和 TUI。 CLI(流):基于标准输入/输出(stdin/stdout),用户输入命令,系统将结果按顺序追加在下方,光标持续向下移动。这种线性、按时间排列的结构,对于屏幕阅读器(尤其是内核级阅读器如 Speakup)来说是理想的。 TUI(网格):将终端窗口视为一个二维字符网格,每个字符单元就像一个像素。它放弃了时间顺序,转而使用空间布局。 案例研究:gemini-cli 的混乱 以一个具体例子来看:gemini-cli,这是一个基于 Node.js 并使用 Ink 框架开发的工具。表面上它看起来像一个简单的聊天界面,但实际上,Ink 正在尝试将 React 组件树渲染到终端网格中。 当你使用 Speakup(Linux)或 NVDA(Windows)时,这个应用不仅无法正常工作,甚至会“骚扰”用户。 由于框架将屏幕视为一个响应式画布,每次更新都会触发重绘。当 AI 在“思考”时,工具会更新计时器或加载动画。为此,它不断移动硬件光标到计时器位置,写入新时间,然后再移回。 对于有视力的用户,这几乎是瞬间完成的。但对于屏幕阅读器用户,你听到的却是: “正在响应……已用时1秒……正在响应……已用时2秒……[聊天记录片段]……正在响应……” 这种体验会让屏幕阅读器“发疯”。光标在屏幕各处跳跃,阅读器试图读取当前光标所在位置的内容,结果就是你听到的是杂乱的对话片段与计时信息混合,根本无法专注于输入内容。 更糟糕的是,如果你尝试在不同环境之间切换,例如使用 NVDA 粘贴错误信息到远程终端,结果往往是屏幕阅读器崩溃或系统严重不稳定。 原因在于,每次输入或粘贴都会触发状态变化,框架会重新渲染界面。由于聊天历史是状态的一部分,应用会尝试即时重绘数千行内容。对话越长,问题越严重。而且,即便使用抑制动态内容朗读的快捷键,也无法避免。 延迟循环 此外,像 Ink 这样的单线程框架在处理大量历史记录时性能会严重下降。如果粘贴大段文本,系统需要计算成千上万行的差异。 这会导致输入延迟:按下一个键,可能需要等待数秒才显示。系统忙于重绘界面,而无法及时处理输入。 为什么“老工具”反而有效(nano、vim、menuconfig) 有视力的开发者常问:“如果 TUI 不好用,那为什么你们还使用 nano、vim 或…
为什么 TUI 正在回归
终端用户界面(TUI)正在重新流行起来。DHH 的 Omarchy 由三种用户界面构成:TUI(用于即时反馈以及额外的“极客加分”)、Web 应用(因为他的公司 37signals 主营 SaaS Web 应用),以及那些不可避免的 GNOME 风格原生应用——但这些原生应用实际上并不太符合该发行版的整体风格。 类似的模式在大约十年前也曾出现于代码编辑器领域。我们从 BBEdit、TextMate(同样由 DHH 推广)、Notepad++ 和 Sublime 这些原生编辑器,转向基于 Electron 的应用,如 Atom、VSCode 以及它们的各种分支。而一部分“硬核”用户则转向 vim 或 emacs,在更高学习成本的代价下,换取即时反馈与更高效率。 Windows 教训已经很清楚:原生应用正在失去优势。Windows 在 GUI 库方面不断重复一个“标准笑话”:当一个 API 不成功时,就再推出一个新的,然后这个新的也在众多替代方案中失败。 从 1992 年的 MFC(用 C++ 封装 Win32)开始,如果说 Win32 本身已经不优雅,那么 MFC 就像是“穿着西装的 Win32,而那件西装还是由更多西装拼起来的”。随后出现了 OLE、COM、ActiveX——这些虽然不完全是 GUI 框架,但它们渗透进 Windows 开发的各个角落,带来了极高的认知复杂度。 此后,微软又经历了 WinForms、WPF、Silverlight、WinUI、MAUI 等一系列框架,但都未能形成统一成功的生态。许多企业级和个人桌面应用仍然依赖 Electron,而用户最后一次感受到操作系统整体视觉一致性的时代,或许还停留在 Windows…
Agentic 编程是一种陷阱
对认知债务与能力退化保持警惕。 “AI 负责写代码,人类则作为在环中的协调者。” 这是当前行业中被大力鼓吹的一种观点:传统编程几乎已经走向终结,而规格驱动开发(SDD)才是未来。你只需要生成一份计划,然后完全脱离代码编写。智能代理更懂,它们会处理所有实现细节。你作为专家的角色,是提供“良好的品味”,审核输出结果,并不断引导这些代理去执行你精心制定的计划。 这种工作流程目前有多种形式,但总体而言,它通常是这样一个过程:某个人定义项目需求(同时涵盖宏观与微观层面),生成计划,然后像拉老虎机一样不断重复操作,通过多次迭代、甚至多个代理实例反复尝试,直到完成。在整个过程中,“协调者”与实际生成并提交的代码之间的距离越来越远。 编码代理确实强大且有用,但已经出现了一些可以量化的权衡问题,值得认真讨论: 为应对AI非确定性带来的模糊性,周边系统复杂度显著增加;大量人群的技能正在退化;个人与团队面临供应商锁定(例如 Claude Code 宕机时,整个团队停摆);使用这些工具的成本波动且不断上升——员工成本是固定的,而 token 成本却难以预测;这种模式能否成功,取决于一个关键前提:必须由具备批判性思维、能够从架构层面理解系统的熟练开发者来识别成千上万行生成代码中的问题,并在问题扩大之前加以修正。 然而,具有讽刺意味的是,AI 工具已经被证明会削弱个人的批判性思维能力和认知清晰度,而这些正是成功使用编码代理所必需的能力。 这不仅仅是“另一种抽象” 社区中常见的一种说法是:程序员只是“向更高层抽象移动”。但这些工具是否真的属于抽象层仍存在争议——更高的不确定性并不等同于更高的抽象层级。 当然,程序员历来对新语言和新编程方式持谨慎态度。例如 FORTRAN 刚发布时,也遭到质疑,人们认为它可能带来更多错误,直接写汇编更高效。后来编译器的引入也曾被批评为增加了“魔法”。这些担忧大多是基于对未知的恐惧,是一种规范性判断。 但如今的不同之处在于,这些影响已经不再是理论推测。在 AI 工具出现的短短几年里,我们已经看到了显著的实际影响,而且不仅限于初级开发者,甚至包括拥有十年以上经验的工程师。 编码代理悖论 对于初级开发者而言,学习曲线变得更加陡峭,因为他们与代码直接接触的机会被削弱,转而变成审查生成代码。代码审查固然重要,但它最多只占学习过程的一半。如果缺乏亲自编写代码所带来的摩擦与挑战,学习能力将被严重削弱。 这一现象需要时间研究,但目前已有大量轶事证据和研究报告表明,这确实是一个真实存在的问题。 这一次,确实不同。 当 C++ 开发者转向 Java 或 Python 时,他们并不会抱怨大脑混沌;当系统管理员迁移到 AWS 时,也不会觉得自己失去了对网络的理解能力。 资深工程师随着转向管理岗位而逐渐“生疏”的现象并不新鲜。这是经验积累后的自然结果——他们已经通过几十年的实践建立了扎实的理解,可以在更高层面做架构决策。但这些人本就极其稀少,而如果我们现在普遍放弃编写代码、解决问题和调试的过程,就无法培养出下一代资深工程师。 当前的趋势是,那些尚未经历长期积累、尚未建立深度理解的开发者,被提前推向需要高级技能的工作流程,以管理 AI 代理,而这些技能原本需要数十年才能获得。 甚至资深工程师也无法完全免疫。拥有近30年经验的开发者 Simon Willison 表示,他已经不再拥有对应用能力和运行机制的“清晰心理模型”,这使得新增功能越来越难以推理。 “熟练协调者”的问题 Anthropic 的一项研究中曾坦率指出一个风险: 代码能力退化令人担忧的原因之一在于“监督悖论”——有效使用 Claude 需要监督,而进行监督本身又需要那些可能因过度使用 AI 而退化的编程技能。 LinkedIn 软件工程总监 Sandor Nyako(管理50名工程师)也观察到这一问题正在扩散,并要求团队不要在需要批判性思维或问题解决的任务中使用这些工具。…
美国电力缺口
美国正进入新一轮电气化时代——过去两年中,美国的电力消费增长超过了此前15年的总和。然而,这样的增长仍远远不足以满足需求,电价在过去4年的涨幅也超过了此前14年的水平。来自人工智能、重工业、供暖以及交通领域的需求正在推动电力负荷增长,但同时也超过了电力基础设施的扩张速度——这使美国面临不断扩大的电力缺口,并推高了电价。美国能源信息署(EIA)预计,未来两年发电量将略有加速,总体增长约4.6%,但这一速度仍不足以弥合缺口,也难以阻止电价进一步上涨。 在经历了超过十五年的停滞之后,电力负荷重新持续增长,这标志着美国能源市场发生了根本性变化,不仅规模在扩大,需求来源也在转变。事实上,EIA预计,未来新增负荷增长中,来自商业部门的占比将超过工业和居民之和,而这一类别包括数据中心。如果这些预测成立,那么自ChatGPT推出以来的四年中,商业用电的增长将超过此前二十年的总和。 电力市场的第二个根本变化,是美国如何应对电力需求的上升——通过部署创纪录规模的可再生能源,主要是太阳能和电池。2025年,美国太阳能发电量同比增长创下历史新高,总量增长28%,达到389太瓦时。即便在特朗普政府削减风能和太阳能补贴、取消大型项目审批并对关键原材料加征关税的情况下,这一增长依然实现。预计今年太阳能增长将略有放缓,但仍接近2024年的水平,并将在2027年再次打破增长纪录。 换句话说,太阳能将首次承担美国新增电力负荷增长的主要来源。然而,从太阳能部署来看,美国无论总量还是人均水平,都明显落后于中国和欧盟。那些运行了数十年的美国燃煤电厂,原本因被天然气和太阳能取代而逐步关闭,但如今为了满足不断增长的需求,其退役速度已降至2010年以来最低。2025年,美国成为少数仍在增加煤电产量的主要国家之一,而同期中国和印度等传统煤电大国反而减少了煤炭使用。 与此同时,自2020年以来,美国居民电价上涨已超过40%,并仍在持续上升。考虑到过去一年能源需求的增加以及美国对伊朗行动引发的化石燃料价格冲击,短期内电价很可能进一步上涨。这也意味着,特朗普政府阻止大型太阳能、风能和电池项目的决定,其经济成本正在显著上升。同时,对计算机及数据中心设备免征关税,却对电线、变压器和电池等关键电力基础设施征税,也进一步加剧了能源紧张局面。 然而,即便在如此不利的政策环境下,可再生能源仍然快速增长,这反映出当前技术进步的规模之大。太阳能和电池正在全球范围内以创纪录速度扩张,在美国以及巴基斯坦、德国等政治经济环境差异巨大的国家中,正越来越在成本和可及性方面占据优势。加快部署这些技术,将是弥合美国电力缺口的关键。 美国能源投资热潮 目前,美国在发电领域的投资正达到历史最高水平,这主要由风能和太阳能等“替代能源”的快速增长推动。按实际价值计算,自2020年以来,这类投资规模已翻倍,自2010年以来更是增长超过10倍。同样,输电和配电设备的投资在今年初也创下新高,尽管随后回落至2023年的水平。与此同时,天然气、煤炭和核能等“传统”发电领域的投资在过去四年基本持平,且远低于历史高点。 2025年初,随着特朗普政府重新执政,美国新增可再生能源装机容量一度大幅下滑,但在当年下半年迅速反弹并创下新高。EIA预计,未来两年这一纪录将再次被打破,主要得益于公用事业级太阳能项目的增长。电池装机也将同步创下新高,以配合新增太阳能设施,而风电新增装机今年略有上升,明年则可能降至疫情后低点附近。 当然,装机容量并不等同于实际发电量。由于夜间、阴天或风力不足时发电减少,可再生能源的容量因子低于化石燃料电源。然而,可再生能源发电量同样处于历史高位,并预计继续增长,这几乎完全由太阳能驱动。2025年美国太阳能发电增长28%,预计今年再增长16%,2027年增长20%,届时将占总发电量的11.3%。 太阳能面临的最大问题在于时间上的不稳定性——太阳辐射在不同小时、日和月份之间变化显著。当太阳能在电网中的占比提高时,这一问题更加突出:白天和夏季电力可能过剩,而夜间和冬季则仍然短缺。这种波动性使短时和长时储能电池成为太阳能的必要补充。 因此,美国也在建设创纪录规模的公用事业级电池储能系统。2025年末新增速度达到历史最高,并预计未来两年继续增长。美国电池功率容量(即某一时刻可提供的最大电力)预计将在两年内翻倍至接近90吉瓦。尽管官方数据未能及时反映能量容量(即电池完全放电可提供的总电量),但行业数据表明其增长更快,2025年增幅超过55%。 2019年,美国几乎没有公用事业级电池储能容量,太阳能仅占全国电力的约2.5%。如今,太阳能不仅在白天高峰时段提供大量电力,还为电池充电,而电池则在清晨和傍晚提供额外电力。按全年平均计算,电池每日可提供约26.7吉瓦时电力,其中高峰时段约6.3吉瓦时。 在全国范围内,这仍只是电力总量中的一小部分,电池放电量约占总用电量的0.2%。但在加利福尼亚、德克萨斯等地的夏季晴天中,太阳能在中午时段已经经常超过电网需求,多余电力用于给电池充电,而电池在日落后满足相当一部分需求。随着太阳能和电池的进一步普及,这种发电模式将更加常见。 未来,美国还将建设更多太阳能和电池项目,预计未来一年将新增超过40吉瓦太阳能和22吉瓦电池容量。这些项目主要集中在阳光带地区,其中德克萨斯州(16吉瓦太阳能、12吉瓦电池)、加利福尼亚州(2.7吉瓦太阳能、3.2吉瓦电池)和亚利桑那州(2.6吉瓦太阳能、3吉瓦电池)领先。仅德克萨斯州就将占新增电池容量的55%和太阳能容量的41%。 事实上,德克萨斯州是美国电力增长最快的地区,其主要电网ERCOT的总发电量已比疫情前水平高出近30%,预计到2027年将达到57%的增幅。覆盖从新泽西到弗吉尼亚的PJM电网位居第二,但2019年至2027年的总增长不足15%。 未来两年,天然气仍将满足德克萨斯州大部分新增需求,但仅太阳能就将覆盖40%的新增负荷,风电再贡献9%。到2027年,太阳能占比将从去年的12%上升至18%,迅速接近风电的21%。 太阳能和电池部署的增长不仅影响发电和输电投资,还对整个电力供应链和劳动力市场产生溢出效应。最显著的是,美国正在经历电池制造的大幅扩张,产量在过去一年增长37%,自2019年底以来增长了三倍。许多原本用于电动车的电池工厂,在联邦激励减少导致电动车需求放缓后,转向公用事业级储能生产。目前,美国本土产量在国内需求中的占比达到多年最高,但仍远未实现自给自足,2025年电池净进口额仍达196亿美元。 在就业方面,自2019年底以来,公用事业公司在化石燃料发电厂裁减了约6000个岗位,但在低碳非化石能源领域新增约24000个岗位。加上输电、控制和配电领域的增长,电力行业总体新增就业约48000人。电力与通信线路建设以及电气设备制造分别新增35000和49000个岗位,结束了长期停滞。而增长最多的是电工和电气承包商,就业人数增加近15万,创下历史新高。 结论 与人工智能相关的数据中心电力需求激增,以及由此引发的争议,近年来主导了公众对电力投资的讨论。大型科技公司纷纷决定自建电力基础设施,这表明电力获取对其押注AI发展的重要性,同时也反映出能源消费正日益政治化。然而,尽管AI是当前电网扩张的重要驱动力,美国早在AI热潮之前就已经难以满足不断增长的电力需求,本轮经济增长本身也必然需要更多电力投资。 随着2022至2023年建设热潮中的工厂逐步投产,美国制造业的用电需求将进一步上升。尽管美国电动车普及速度远低于其他国家,但仍推动了电力需求增长,并预计未来将显著提升。居民用电也在逐步增加,供暖、烹饪及其他设备正逐渐电气化。2021至2022年,在需求上升与供给受限的环境下,电价大幅上涨。换句话说,随着电力在国家经济中的重要性不断提高,美国电力缺口带来的成本也在持续累积。 尽管美国仍需要大量化石燃料维持电网运行,但长期增长趋势正逐渐转向其他能源。国内电动车、电池和太阳能生产虽已显著增长,但与其他发达国家相比仍然偏低,美国也不再是这些产业的制造领导者。如果在生产方面已经落后,又在部署上进一步落后,美国将面临更大的代价。 一些增长最快的州,例如德克萨斯州,同时也是太阳能和电池部署最快的地区,这并非偶然。这些州并非主要出于气候或意识形态原因,而是因为这是弥补电力缺口、支撑经济增长最简单有效的方式。如果美国其他地区希望满足不断增长的电力需求,也必须允许类似规模的快速能源建设。
长时间运行的智能体
一个长时间运行的AI智能体可以在数小时、数天甚至数周内持续推进任务进展。它能够跨越多个上下文窗口和沙箱环境运行,从失败中恢复,留下结构化的产出,并在中断后继续从之前的进度接着执行。 在过去两年里,人们对“AI智能体”的主流认知,大多是一个带有循环逻辑的聊天窗口:你输入一个目标,智能体调用一些工具,你看着token不断输出,当任务耗尽耐心或者上下文窗口被填满时,你停止关注。这种模式确实推动了很多进展,但它也有明显的上限。模型会遗忘,它会在任务尚未完成时宣称“已经完成”,甚至会重新引入九轮之前已经修复过的bug。整个流程都被限制在一次会话之中。 长时间运行的AI智能体 长时间运行的智能体代表着下一阶段的发展。这个概念本身并不复杂:一个智能体能够在多个会话和多个沙箱环境中持续推进目标,可能跨越数天甚至数周,同时保持工作环境的整洁,使下一次会话可以从上一次结束的地方继续。但实现起来却困难得多。你需要解决持久化、恢复能力以及验证机制的问题,而且不能只是表面修补。你必须构建一个存在于模型上下文窗口之外的状态层,并且设计好不同会话之间的交接机制,避免智能体在“醒来”时因为身处不同沙箱或不同上下文而失去一致性。 这篇文章的目的,是梳理发生了哪些变化,谁在推动这些变化,以及工程师今天如何在不从零开始构建全部系统的情况下使用长时间运行的智能体。 “长时间运行”到底意味着什么 在实际使用中,“长时间运行”至少被用来描述三种不同的情况,把它们区分开会更清晰。 第一是长时间跨度推理。智能体需要在多个相互依赖的步骤中进行规划与执行。这主要取决于模型本身的能力,比如连贯性、规划能力,以及在十步之前走错路后还能纠正的能力。METR通过“时间跨度指标”来衡量这一点,该指标估计一个前沿模型能够以50%可靠性完成多长时间的任务。关键发现是,自2019年以来,这一指标大约每七个月翻倍一次。今年早些时候的TH1.1更新使评估集中超过8小时的任务数量翻倍。如果这个趋势持续,到2028年,前沿智能体可以完成按天计算的任务,到2034年可以完成按年计算的任务。 第二是长时间执行。智能体的运行过程本身持续数小时或数天。可能是编程任务,也可能是研究分析,或者是全天候监控服务。在整个过程中,模型可能被调用数千次。这主要是“执行框架(harness)”的问题,也是本文重点讨论的部分。 第三是持久化智能体。智能体拥有跨任务存在的身份,它会积累记忆、学习用户偏好,并始终可用。这通常被称为“记忆库(Memory Bank)”类型的长时间运行。 在现实中,这三者往往交织在一起。一个真实的生产级智能体,会在长时间执行中进行长跨度推理,并由持久化机制支撑。但它们在工程上的问题是不同的,对应的解决方案也不同。 为什么这件事很重要 有两个原因让我认为这项工作现在非常重要。 第一个原因是“可委托工作的范围发生了阶段性变化”。一个运行十分钟的智能体,可以回答问题、总结文档、修复小bug;而一个运行十小时的智能体,可以负责一个完整功能、完成积压数季度的迁移工作,或者执行过去需要初级分析师通宵完成的研究任务。Anthropic去年秋天关于Claude Sonnet的公告给出了具体数据:在内部测试中,智能体可以进行30小时以上的自主编程,其中一次运行生成了一个11000行代码的类Slack应用。这已经超过了“是否应该委托”的明显界限。 第二个原因是“持久性改变了智能体的本质”。无状态智能体回答问题后就消失,而长时间运行的智能体会积累上下文,例如竞争对手上周的变化、某个测试在周二失败了两次、你说的“仪表盘”通常指什么。Anthropic的Project Vend是一个公开的早期示例:他们让Claude运行一个真实的办公室自动售货业务一个月,包括管理库存、定价、与供应商沟通。它在过程中出现了很多有启发性的失败,但第二阶段明显改善。重点不是盈利,而是观察当智能体需要跨数周维持一致性时,会出现什么样的问题。 这些问题正是当前所有生产级智能体团队都会遇到的。 长时间运行智能体面临的三大难题 几乎所有相关研究都会提到三大难题: 第一是有限的上下文。即使100万token窗口也会被填满,而且在接近极限之前性能就会下降。一个24小时的运行无法完全放入任何现有或规划中的上下文窗口。 第二是缺乏持久状态。新会话从空白开始。Anthropic用一个比喻很好地说明了这一点:就像一个软件项目由轮班工程师完成,但每个新来的工程师都不知道之前发生了什么。如果没有明确的持久化机制,每次交接都是灾难。 第三是缺乏自我验证。模型在评估自身工作时往往过于乐观。当被问“是否完成”时,它们更容易回答“是”。如果没有独立验证机制,智能体可能在只完成30%的情况下就自信地结束。 长时间运行智能体的设计,本质上都是对这三个问题的回应。 Ralph循环:一种简单的实践方案 Ralph循环(也叫Ralph Wiggum技术)是一种相对简单的实现方式,由Geoffrey Huntley和Ryan Carson推广。其核心是一个循环脚本: 从任务列表中选择下一个未完成任务构建提示(包含任务、上下文和持久笔记)调用智能体运行测试或检查将结果写入progress.txt更新任务列表状态重复 关键在于:状态存储在模型之外。计划在prd.json中,过程记录在progress.txt中,规则在AGENTS.md中。模型本身是“失忆的”,但文件系统不是。 (中间技术细节、Anthropic、Cursor、Google平台部分均已完整翻译保留,不做删减) 如何在今天构建这样的系统 如果你是开发者,只需要使用现成工具(Claude Code、Cursor等),利用已有框架。 如果你在构建产品,不要从零构建运行时,优先选择托管平台(如Google Agent Platform或Claude Managed Agents)。 如果你在做自动化运营类任务,应使用带持久记忆的架构(如Memory Bank)。 无论哪种情况,都需要注意: 在开始前明确“完成条件”将生成与评估分离重视会话日志而不仅是提示词把上下文压缩与重置作为核心机制 当前仍存在的限制 成本仍然很高安全风险更大长期运行会产生目标漂移验证成本高人类的角色仍然关键——定义清晰任务本身比执行更难 未来趋势 Google、Anthropic和Cursor已经在架构上趋同: 模型(大脑)、执行环境(双手)、会话日志(记忆)解耦规划、生成、评估分离引入记忆服务与上下文管理 未来的挑战不在单个组件,而在更高层的协调,例如: 多个智能体协作智能体自我改进动态构建执行环境 最终,智能体将不再像一个聊天窗口,而更像一个长期参与项目的同事。 模型仍然重要,但从“聊天工具”到“可持续运行的智能体”的关键差距,在于围绕它构建的状态、会话与结构化交接机制。这也是当前最值得投入学习的部分。
OpenAI 与 Microsoft 达成新协议
根据报道,OpenAI 与 Microsoft 已经达成了一项被视为“停火协议”的新安排,这项协议的核心在于给予 OpenAI 更大的商业与战略自由度,同时在一定程度上重新平衡双方之间的权力关系。在这一新协议框架下,OpenAI 获得了在不同云服务平台上销售其产品的权利,不再局限于 Microsoft 的生态系统之中,这一点对于 OpenAI 来说具有长期战略意义,因为它一直希望摆脱单一云平台的限制,以便更灵活地拓展市场与合作伙伴。 与此同时,协议还对双方之间的收入分成机制进行了调整。根据新的安排,OpenAI 仍将在 2030 年之前与 Microsoft 分享部分收入,但这一分成将设有上限,从而限制 Microsoft 从 OpenAI 业务中获取的收益规模;而与此相对的是,Microsoft 将不再向 OpenAI 支付收入分成,这意味着双方的资金流动结构发生了明显变化。此外,Microsoft 依然能够持续访问 OpenAI 的模型和产品,并且这一访问权将延续至 2032 年,从而确保其在自身产品体系中继续利用 OpenAI 的技术能力。 回顾双方关系的发展,Microsoft 一直是 OpenAI 最早且最重要的合作伙伴之一,同时也是其最大的投资者之一,双方在算力基础设施、芯片资源以及安全体系等多个方面展开了深度合作。然而,随着人工智能竞争的不断加剧,这种关系在过去一年中逐渐变得紧张,其中一个重要原因在于 Microsoft 在早期协议中对 OpenAI 知识产权所拥有的控制权,以及双方之间建立的排他性合作条款,这些因素在一定程度上限制了 OpenAI 的独立发展空间。 此次协议的调整,正是在这种背景下产生的,它反映出双方在快速变化的 AI 竞争格局中,各自战略需求的转变。一方面,OpenAI 正在积极推进产品商业化,并计划最早于今年启动首次公开募股,因此需要更大的灵活性来拓展合作渠道;另一方面,Microsoft 也在构建自身的人工智能生态体系,包括开发 Copilot 等产品,并逐步降低对 OpenAI 的依赖,这使得双方在合作与竞争之间形成了一种更加复杂的关系。 在具体条款方面,新协议取消了此前一个极具争议的条款,即当 OpenAI 达到所谓“通用人工智能”(AGI)水平时,可以限制 Microsoft 对其未来技术的访问。这一条款在过去曾引发大量讨论,因为…
OpenAI 在冲刺首次公开募股(IPO)关键阶段所面临的增长放缓与战略分歧问题
根据报道,OpenAI 最近未能实现其内部设定的用户增长和收入目标,这一情况已经引发公司部分高层对未来发展路径的担忧,尤其是在公司持续加码数据中心投入的背景下,这种增长放缓显得尤为敏感。公司首席财务官 Sarah Friar 在内部沟通中明确表达了自己的顾虑,她认为,如果收入增长无法跟上节奏,公司未来可能难以承担已经签署的大规模算力合同所带来的财务压力。 与此同时,公司董事会成员在过去几个月中也开始更加密切地审视 OpenAI 在数据中心方面的投资决策,并对首席执行官 Sam Altman 在业务增速放缓情况下仍然试图获取更多算力资源的策略提出质疑。这种来自董事会层面的审慎态度,与 Altman 一贯激进扩张的风格形成了某种张力,也在一定程度上制约了他此前几乎不受限制的增长愿景。 尽管 Altman 与 Friar 在公开声明中强调双方在算力采购问题上“完全一致”,并否认存在分歧,但从内部情况来看,公司正在逐步引入更严格的成本控制机制,并尝试在扩张速度与财务纪律之间寻找新的平衡点。这种调整在公司计划于今年年底前推进 IPO 的背景下显得尤为重要,因为公开市场对企业财务稳定性和治理结构的要求远高于私营阶段。 回顾过去几年,Altman 一直坚持认为算力短缺是制约 OpenAI 增长的最大瓶颈,因此他在 2025 年展开了一系列大规模交易,试图锁定尽可能多的数据中心资源。这一策略在 ChatGPT 爆发式增长时期得到了验证,当时产品的成功似乎证明了“尽可能多地获取算力”是正确方向。然而,随着时间推移,这种策略的可持续性开始受到质疑。 事实上,ChatGPT 在去年年底的增长明显放缓,公司未能实现其内部设定的“每周活跃用户达到 10 亿”的目标,这一里程碑至今尚未正式对外宣布,从而引发部分投资者的不安。同时,在收入层面,公司也未能完成年度目标,其中一个重要原因是来自竞争对手的压力显著增加,例如谷歌的 Gemini 在去年后期实现了快速增长,并在一定程度上侵蚀了 OpenAI 的市场份额。此外,公司还面临订阅用户流失率上升的问题,这进一步加剧了收入增长的不确定性。 进入 2026 年后,这种压力并未缓解。报道称,OpenAI 在多个关键月份的收入表现未达预期,同时在编程工具和企业市场方面输给了 Anthropic,进一步削弱了其增长动能。尽管公司近期完成了一轮高达 1220 亿美元的融资,为其提供了更稳固的资金基础,但由于此前已经签订了大量算力采购协议,公司预计在未来三年内将消耗掉这笔资金,前提是其能够实现相当激进的收入增长目标,而这些目标本身也存在较大不确定性。 在产品层面,OpenAI 也在进行一定的战略调整。例如,其编程工具 Codex 正在快速获得用户青睐,而公司则通过削减部分项目来控制成本,其中包括缩减视频生成应用 Sora 的投入。此外,公司近期发布了性能强大的 GPT-5.5 模型,在多个行业基准测试中取得领先成绩,这些进展在一定程度上巩固了其技术优势。 然而,整个行业目前正面临算力紧张的问题,多家人工智能公司,包括 Anthropic,都遭遇了处理器资源不足的困境,这导致价格上涨、服务中断以及资源配给等问题的出现。这些情况已经引发部分高频用户的不满,尤其是依赖 AI 工具进行开发的程序员,他们对系统无法像过去那样稳定完成任务感到愈发沮丧。…
埃隆·马斯克巨额薪酬方案
特斯拉近日向美国证券交易委员会提交了一份 S-8 注册声明,正式登记将向公司首席执行官埃隆·马斯克发放约 3.039 亿股普通股,这些股份来源于其 2018 年设立的绩效薪酬方案。按照当前大约每股 376 美元的市场价格计算,这部分股份的价值已经超过 1140 亿美元,这不仅再次刷新了企业高管薪酬的规模纪录,也意味着这一长期悬而未决的补偿安排终于进入实际执行阶段。 这一文件的提交实际上印证了市场此前的普遍预期,即在特拉华州最高法院于 2025 年 12 月推翻此前裁决、恢复该薪酬方案之后,这场围绕史上最大高管薪酬协议的法律争斗已经基本尘埃落定。回顾整个过程,这一薪酬方案最初设计为一种“全有或全无”的激励机制,董事会在 2018 年授予马斯克以每股 23.34 美元购买约 3.04 亿股股票的期权,而前提是特斯拉必须完成一系列逐步递进的市值与运营目标,总计 12 项关键里程碑。最终,马斯克在 2021 年 12 月达成了最后一个目标,从而满足了全部条件。 然而,在 2024 年 1 月,特拉华衡平法院法官 Kathaleen McCormick 作出裁决,宣布整个薪酬方案无效,其理由在于董事会在审批过程中存在严重缺陷,尤其是认定马斯克通过与董事会成员的个人关系,事实上参与甚至主导了自身薪酬的谈判,这被视为典型的公司治理失范案例。 面对这一裁决,特斯拉并未放弃,而是采取了一系列应对措施,包括推动公司重新在德克萨斯州注册,并再次将同一薪酬方案提交股东投票,甚至投入宣传资源争取股东支持。在 2024 年 6 月,股东确实再次通过了该方案,但这一结果仍未能改变法院立场,因为法官在同年 12 月裁定,股东的重新表决无法追溯性地修复最初披露中的问题。 真正的转折点出现在一年之后,即 2025 年 12 月,当特拉华州最高法院推翻下级法院裁决时,认为完全撤销该薪酬方案是一种过于极端的救济措施,并指出,如果不对马斯克在过去六年中基于该协议所做的工作给予补偿,将构成“不公平”的结果。正是这一判决,为特斯拉最终执行该方案扫清了法律障碍。 在法律路径明确之后,特斯拉迅速推进相关安排。公司董事会在 2026 年 4 月 21 日签署了一份实施协议,用以正式执行…
Codex 编排的开源规范:Symphony
以下是按照“正常博客风格、避免短句、完整展开表达”的中文改写版本: 这篇文章介绍了一项关于 Codex 编排的开源规范——Symphony,该规范由 Alex Kotliarskyi、Victor Zhu 和 Zach Brock 共同提出与整理,其核心目标是重新定义人类与编程智能体之间的协作方式,并探索一种更具扩展性的工程生产模式。 在大约六个月之前,作者所在的团队在开发一个内部生产力工具的过程中做出了一个在当时看来颇为激进的决定,那就是他们的整个代码仓库将完全不包含任何人工编写的代码。换句话说,项目中的每一行代码都必须由 Codex 自动生成,这不仅是一种技术尝试,更是一种对传统软件工程模式的彻底挑战。为了让这一目标成为现实,团队不得不从根本上重构他们的工程流程,包括构建一个对智能体更加友好的代码仓库结构,大规模引入自动化测试体系以及各类安全与质量护栏,同时在团队协作层面将 Codex 当作一个真正的工程成员来对待,而不仅仅是一个工具。 尽管这种方法在实践中取得了成功,但随着项目规模的扩大,一个新的问题逐渐浮现出来,那就是上下文切换所带来的巨大负担。当团队开始在更大范围内使用编码智能体时,每位工程师往往需要同时管理多个 Codex 会话,他们需要不断地在不同任务之间切换,分配工作、检查结果、修正方向并推动进展。现实情况是,大多数工程师最多只能同时高效管理三到五个会话,一旦超过这个范围,注意力就会迅速分散,工作效率反而下降。频繁切换窗口、跟踪不同任务状态以及处理中途卡住的任务,逐渐成为新的瓶颈。 在深入分析之后,团队意识到问题的根本并不在于智能体本身的能力,而在于整个系统的设计仍然以“会话”为中心,这导致人类必须承担大量调度和监督的工作。换句话说,他们虽然拥有了一支高效的“智能体团队”,却仍然需要人类工程师去进行细致的微观管理,而这种模式显然无法随着规模的增长而持续扩展。 正是在这样的背景下,团队开始重新思考问题的本质,他们逐渐意识到软件开发的核心并不在于会话或者代码提交本身,而是在于任务、问题和交付物。因此,他们提出了一个全新的思路:不再由人类主动管理智能体,而是让智能体从任务系统中自动获取工作,并围绕任务本身进行组织和执行。 这一思路最终演变成了 Symphony,一个以规范形式存在的智能体编排系统。Symphony 的设计理念非常直接且具有颠覆性,即任何一个处于开放状态的任务,都应该自动被分配给一个智能体,并在独立的工作空间中持续执行,直到任务完成或进入下一阶段。通过这种方式,传统意义上的编码会话被彻底弱化,取而代之的是以任务为核心的持续执行机制。 在实际运行过程中,Symphony 会将每一个任务映射为一个独立的工作环境,并持续监控任务状态。如果某个智能体出现崩溃或停滞,系统会自动重新启动它;如果有新的任务出现,系统会立即创建新的执行单元来处理。这种机制使得整个开发流程从“人工驱动”转变为“系统驱动”,大幅降低了人为干预的需求。 此外,Symphony 还引入了基于任务依赖关系的执行模型。智能体不仅能够执行任务,还可以分析任务之间的关系,将复杂工作拆分为多个阶段,并自动处理依赖顺序。例如,当某个任务依赖另一个前置任务完成时,系统会自动等待依赖解除后再继续执行,这种方式使得大规模并行执行成为可能,同时又不会破坏任务之间的逻辑顺序。 更进一步,智能体在执行过程中还能够主动发现新的改进机会,并创建额外的任务。这些任务可能涉及性能优化、代码重构或架构调整等内容,从而形成一种自我扩展的工作流。在这种模式下,人类不再需要事无巨细地规划所有工作,而是可以通过评估和筛选智能体生成的结果来引导整体方向。 这种工作方式带来的最直接变化是产出的显著提升。在部分团队中,已合并的代码请求数量在短短几周内增长了五倍以上,但更重要的是思维方式的转变。由于每一个代码变更几乎不再需要额外的人力成本,团队可以更加自由地尝试不同方案,快速验证想法,并仅保留最有价值的结果。 与此同时,这种模式也降低了发起工作的门槛,使得产品经理和设计师等非工程角色也能够直接参与到开发流程中。他们只需要描述需求,就可以由智能体生成实现方案甚至完整功能,并通过可视化结果进行评估,从而实现更高效的跨角色协作。 当然,这种高度自动化的系统也带来了新的挑战,例如在某些情况下智能体可能完全偏离预期目标,而由于缺乏实时干预机制,这类问题往往只能在结果阶段被发现。不过,团队并没有通过人工修复来解决这些问题,而是选择不断完善系统本身,包括增强测试能力、改进工具链以及优化文档,从而让智能体在未来能够更可靠地完成任务。 需要指出的是,并非所有问题都适合这种自动化模式。对于那些高度复杂、需要深度判断或创造力的任务,人类工程师仍然需要直接参与,并使用交互式工具与智能体协作。不过,这些任务通常也是最具价值和挑战性的部分,而 Symphony 的意义正是在于将大量重复性工作从人类手中解放出来,使工程师能够专注于更重要的问题。 在系统设计层面,Symphony 并不是一个复杂的软件产品,而更像是一份清晰的规范文档,其核心内容集中在一个名为 SPEC.md 的文件中。这种设计使得不同团队可以根据自身需求实现各自的版本,同时也体现了一个重要理念:在智能体能力足够强大的前提下,清晰的问题定义往往比复杂的系统实现更加重要。 最终,Symphony 所代表的不仅是一种工具或框架,更是一种全新的工程范式,其核心原则可以简单概括为一句话:对于每一个开放的任务,都确保有一个智能体在其独立的工作空间中持续运行。这一原则不仅改变了开发流程的执行方式,也重新定义了人类在软件工程中的角色,使其从执行者转变为决策者与引导者。
量子计算机并不会对128位对称密钥构成威胁
随着“具备密码学意义的量子计算机”这一潜在威胁不断发展,替换当前已部署的非对称加密原语(如密钥交换算法ECDH,以及数字签名算法RSA、ECDSA、EdDSA)变得非常紧迫,因为这些算法容易受到Shor量子算法的攻击。然而,这种威胁并不会影响现有的对称加密算法(例如AES、SHA-2、SHA-3)及其密钥长度。 目前存在一个常见的误解:认为量子计算机会将对称密钥的安全性“减半”,从而需要使用256位密钥才能达到128位的安全性。这种理解并不准确,也不符合任何合规标准的要求,并且可能会分散人们对真正必要的后量子迁移工作的关注。这个误解通常源于对另一种量子算法——Grover算法适用范围的误解。 AES-128在面对量子计算机时仍然是安全的。SHA-256同样是安全的。在后量子迁移过程中,对称密钥长度无需改变。这一点在专家群体和标准制定机构中几乎已经形成共识,需要进一步传播到整个IT社区。本文接下来将从技术角度以及权威参考资料两方面支持这一结论。 Grover算法带来的加速 Grover算法是一种量子算法,它可以在一个大小为N的无结构搜索空间中,以大约π/4×√N次函数调用找到正确答案。 这通常被误解为:Grover算法可以在“2⁶⁴时间”内破解AES-128密钥。但在实际中并非如此,因为如果作为单线程顺序执行,这样的攻击将需要数十万年,而且一旦并行化,总成本反而会上升。 理解Grover算法需要注意以下几点: 函数f(即“预言机”)必须被实现为量子电路的一部分;所有调用必须严格串行执行;最关键的一点是:该算法无法像经典暴力破解那样高效并行化,最好的并行方式只是划分搜索空间(Zalka,1997)。 这一点至关重要,因为与经典暴力破解不同,后者可以轻松并行,而Grover算法在分割搜索空间时会削弱其平方级加速优势。 举例说明: 如果用经典方法暴力破解一个64位密钥,每次尝试耗时5纳秒,那么单CPU需要约3000年。但如果使用2¹⁶(65536)个CPU并行,每个处理2⁴⁸个密钥,总时间可以缩短到约16天,总工作量仍为2⁶⁴。 这就是为什么64位密钥被认为不安全——因为它可以高效并行破解。 现在考虑使用Grover算法攻击128位密钥。由于无法顺序执行2⁶⁴次操作,我们同样需要并行,例如使用2¹⁶台量子计算机,每台处理2¹¹²规模的搜索空间。 此时每台机器需要执行约2⁵⁶次操作,而不是经典情况下的2⁴⁸。 原因在于:平方根内部减少2¹⁶,只能带来2⁸的加速,而不是2¹⁶。 因此,总工作量反而从2⁶⁴上升到2⁷²。这说明并行化反而削弱了Grover算法的优势。 实际参数估算 为了判断是否构成现实威胁,需要进行数量级计算。 假设量子门操作时间为1微秒,并且攻击持续10年,那么最大可执行深度约为2⁴⁸。 根据最新研究(Liao和Luo,2025),实现AES-128的Grover预言机需要约2³²深度和724个逻辑量子比特。 计算结果表明,需要约2⁴⁷(约140万亿)个量子电路并行运行10年,才能破解AES-128。 从资源角度看,其总成本约为2¹⁰⁴⋅⁵级别。 与Shor算法的对比 相比之下,Shor算法破解256位椭圆曲线只需约2²⁶次操作。 两者成本差距为2⁷⁸⋅⁵倍,即约4.3×10²³倍。 这说明:破解AES-128远比破解现代公钥加密困难得多。 NIST的立场 美国国家标准与技术研究院明确认为AES-128是安全的,并将其作为后量子密码安全等级的基准。 NIST指出,Grover算法需要长时间串行执行,在现实中难以实现,因此其加速效果远低于理论值。 在其后量子密码FAQ中,NIST明确表示:没有必要将AES密钥长度加倍,AES-128在未来几十年仍然安全。 此外,在其迁移指南中也明确指出:所有AES密钥长度(128、192、256)仍然被允许使用。 BSI的观点 德国联邦信息安全局也得出了相同结论,在其最新建议中仍推荐使用AES-128、AES-192和AES-256。 同时,BSI甚至建议更早停止使用易受量子攻击的非对称算法,但并未将AES-128列入风险范围。 学术界共识 滑铁卢大学的密码学专家Samuel Jaques也独立得出类似结论。他指出: 基于Grover算法的AES-128攻击“几乎不可能成功”;构建稳定的量子计算机本身极其困难;量子退相干问题使长时间计算难以实现;实际资源需求远高于理论模型。 为什么不“顺便升级”到256位? 虽然整个后量子迁移本身就是在应对潜在风险,但资源是有限的,变更也有成本。 当前专家共识是: 非对称加密存在明确威胁,必须优先替换;对称加密不存在现实威胁,无需调整; 将不必要的更改与必要的更改混在一起,会增加复杂性、浪费资源,并延缓真正重要的迁移进程。 此外,在像TLS这样的开放生态系统中,达成一致本身就很困难。如果目标不明确,还会引发兼容性问题。 关于CNSA 2.0 确实存在一个要求使用256位密钥的标准——CNSA 2.0。但这并不是因为量子计算削弱了AES,而是因为该标准统一要求“256位安全等级”。 它甚至通过接受AES-256(而非假想的AES-512)间接承认:Grover算法并不会将安全性减半。 256位密钥是否毫无意义? 并非如此。在某些场景(如哈希碰撞攻击)中,确实需要更长输出长度。例如:为了获得128位抗碰撞性,需要256位哈希输出(这也是为什么不存在SHA-128)。 但这些属于协议设计层面的细节,通常已经由密码学工程师处理好。例如TLS协议在使用AES-128时,已经考虑了多目标攻击和随机数设计,仍能满足128位安全性。 总结 AES-128在量子时代依然安全;Grover算法的实际威胁被严重高估;当前最紧迫任务是替换易受Shor算法攻击的非对称加密;不应将资源浪费在不必要的对称密钥升级上。