在最近一轮融资中,OpenAI 允许员工每人出售最高 3000 万美元的股份,使他们成为 AI 浪潮中最早真正兑现财富的人之一。 去年 10 月,超过 600 名现任与前员工一次性出售了手中的股份,总计套现 66 亿美元。根据知情人士透露,其中大约有 75 人直接卖满了 3000 万美元的上限。 有些人在套现之后,甚至选择把剩余股份捐出去——他们将股票放入 donor-advised fund(捐赠建议基金)中。这类账户既可以用于慈善事业,同时还能让捐赠者在当年获得税务减免。 这场股份出售,其实也提前揭示了一波即将席卷旧金山以及全球科技中心的财富洪流。 OpenAI 和 Anthropic 正在为未来可能成为史上最大规模 IPO 的上市做准备。届时,成千上万普通员工将能够出售股票,许多人会直接变成千万富翁。 OpenAI 要求员工必须等待两年后才能出售股份,因此这次股票出售,也是许多在 ChatGPT 发布后加入公司的员工第一次真正“落袋为安”。 OpenAI 员工持股价格增长轨迹: 也就是说,早期员工手中的股票,7 年间价值上涨超过 100 倍。 相比之下,同一时期纳斯达克综合指数大约只涨了三倍。 历史上从未有任何一轮科技繁荣,在公司上市之前,就已经向如此大规模的普通员工释放如此巨大的财富。 互联网泡沫时期,虽然也有数百家公司 IPO,但大多数员工即使上市之后,还得等待很长时间才能真正卖出股票。 而对于很多人来说,在他们终于能卖股之前,泡沫就已经破裂,他们最终什么都没得到。 而 AI 时代不同。 针对某些高度专业化人才的薪酬规模,在现代历史上几乎没有先例。 Google 和 Facebook 的早期员工在公司上市后确实赚到了数百万美元,但这一次 AI 领域财富创造的规模——尤其是针对非创始人员工——已经远远超越过去。 去年,Meta 为了抢顶级研究员,曾开出高达 3…
我重新回到了 AWS ,然后被狠狠提醒了我当初为什么离开
我算是 AWS 刚诞生时最早的一批倡导者之一——SQS、S3、EC2、SimpleDB——那时候 AWS 的规模还小得多。事实上,当年 AWS 的美国 evangelist 第一次来到墨尔本宣传 AWS 时,我还组织了墨尔本第一场 AWS 活动。 云计算当时简直是一场令人震撼的革命——一家创业公司突然之间就能在几分钟内拥有自己的计算系统,而不需要再去数据中心安装和维护自己的机器。这完全改变了游戏规则,而我当时彻底喝下了 AWS 的 Kool Aid,连杯底都舔得干干净净。我对 AWS 是彻底 All In 的。 之后大概整整 15 年,我一直都是 AWS 的超级粉丝——真正意义上的信徒——我彻底押注 AWS。 关系的崩坏,总是一点一点开始的——有那么一两件事情开始让你不爽,但整体上你还是爱它,对吧?虽然这里那里会有一些小缺点,但没关系!它依然超级棒,你依然热爱它,对吧?但渐渐地,你开始注意到越来越多不对劲的地方,越来越多你不喜欢、已经坏掉、或者设计糟糕的东西。直到某一天,最后一个细节出现,天平终于彻底倾斜,你会突然意识到: “我已经不再喜欢这段关系了。” 下面这些事情,就是一点一点侵蚀我对 AWS 感情的原因: AWS 在存在的前六年里,居然不愿意自己构建官方客户端库,而是把这件事甩给“我们伟大的社区”,让 Python 等语言的开发者在周末和夜晚免费帮 AWS 写 SDK,为 AWS 的利益白打工。这件事真的让我非常恼火。 AWS 在从 Python2 迁移到 Python3 这件事情上拖延了荒谬般长的时间,这也让我极度不爽。 DynamoDB —— 我其实很少真正“恨”某个软件,但天啊,DynamoDB 真的是一坨滚烫的垃圾。我试了一天,结果当天账单就到了 75 美元。问题不仅仅是贵,它几乎在每一个层面上都烂到极致。…
文本模式的谎言:为什么现代 TUI 对可访问性而言是一场噩梦
“它是文本的,所以它是可访问的”这一神话 在有视力的开发者中,存在一种根深蒂固的误解:只要应用运行在终端中,它就天然是可访问的。这种逻辑认为,由于没有图形界面、没有复杂的 DOM,也没有 WebGL 画布,内容不过是原始的 ASCII 文本,因此屏幕阅读器可以轻松解析。 现实却完全不同。大多数现代文本用户界面(TUI)往往比设计糟糕的图形界面更不友好。那些本应提升开发者体验(DX)的终端工具——例如 Ink(JS/React)、Bubble Tea(Go)或 tcell——实际上正在破坏盲人用户的使用体验。 架构缺陷:流 vs 网格 要理解这一失败,我们必须区分两种常被混淆的概念:“终端应用”中的 CLI 和 TUI。 CLI(流):基于标准输入/输出(stdin/stdout),用户输入命令,系统将结果按顺序追加在下方,光标持续向下移动。这种线性、按时间排列的结构,对于屏幕阅读器(尤其是内核级阅读器如 Speakup)来说是理想的。 TUI(网格):将终端窗口视为一个二维字符网格,每个字符单元就像一个像素。它放弃了时间顺序,转而使用空间布局。 案例研究:gemini-cli 的混乱 以一个具体例子来看:gemini-cli,这是一个基于 Node.js 并使用 Ink 框架开发的工具。表面上它看起来像一个简单的聊天界面,但实际上,Ink 正在尝试将 React 组件树渲染到终端网格中。 当你使用 Speakup(Linux)或 NVDA(Windows)时,这个应用不仅无法正常工作,甚至会“骚扰”用户。 由于框架将屏幕视为一个响应式画布,每次更新都会触发重绘。当 AI 在“思考”时,工具会更新计时器或加载动画。为此,它不断移动硬件光标到计时器位置,写入新时间,然后再移回。 对于有视力的用户,这几乎是瞬间完成的。但对于屏幕阅读器用户,你听到的却是: “正在响应……已用时1秒……正在响应……已用时2秒……[聊天记录片段]……正在响应……” 这种体验会让屏幕阅读器“发疯”。光标在屏幕各处跳跃,阅读器试图读取当前光标所在位置的内容,结果就是你听到的是杂乱的对话片段与计时信息混合,根本无法专注于输入内容。 更糟糕的是,如果你尝试在不同环境之间切换,例如使用 NVDA 粘贴错误信息到远程终端,结果往往是屏幕阅读器崩溃或系统严重不稳定。 原因在于,每次输入或粘贴都会触发状态变化,框架会重新渲染界面。由于聊天历史是状态的一部分,应用会尝试即时重绘数千行内容。对话越长,问题越严重。而且,即便使用抑制动态内容朗读的快捷键,也无法避免。 延迟循环 此外,像 Ink 这样的单线程框架在处理大量历史记录时性能会严重下降。如果粘贴大段文本,系统需要计算成千上万行的差异。 这会导致输入延迟:按下一个键,可能需要等待数秒才显示。系统忙于重绘界面,而无法及时处理输入。 为什么“老工具”反而有效(nano、vim、menuconfig) 有视力的开发者常问:“如果 TUI 不好用,那为什么你们还使用 nano、vim 或…
为什么 TUI 正在回归
终端用户界面(TUI)正在重新流行起来。DHH 的 Omarchy 由三种用户界面构成:TUI(用于即时反馈以及额外的“极客加分”)、Web 应用(因为他的公司 37signals 主营 SaaS Web 应用),以及那些不可避免的 GNOME 风格原生应用——但这些原生应用实际上并不太符合该发行版的整体风格。 类似的模式在大约十年前也曾出现于代码编辑器领域。我们从 BBEdit、TextMate(同样由 DHH 推广)、Notepad++ 和 Sublime 这些原生编辑器,转向基于 Electron 的应用,如 Atom、VSCode 以及它们的各种分支。而一部分“硬核”用户则转向 vim 或 emacs,在更高学习成本的代价下,换取即时反馈与更高效率。 Windows 教训已经很清楚:原生应用正在失去优势。Windows 在 GUI 库方面不断重复一个“标准笑话”:当一个 API 不成功时,就再推出一个新的,然后这个新的也在众多替代方案中失败。 从 1992 年的 MFC(用 C++ 封装 Win32)开始,如果说 Win32 本身已经不优雅,那么 MFC 就像是“穿着西装的 Win32,而那件西装还是由更多西装拼起来的”。随后出现了 OLE、COM、ActiveX——这些虽然不完全是 GUI 框架,但它们渗透进 Windows 开发的各个角落,带来了极高的认知复杂度。 此后,微软又经历了 WinForms、WPF、Silverlight、WinUI、MAUI 等一系列框架,但都未能形成统一成功的生态。许多企业级和个人桌面应用仍然依赖 Electron,而用户最后一次感受到操作系统整体视觉一致性的时代,或许还停留在 Windows…
Agentic 编程是一种陷阱
对认知债务与能力退化保持警惕。 “AI 负责写代码,人类则作为在环中的协调者。” 这是当前行业中被大力鼓吹的一种观点:传统编程几乎已经走向终结,而规格驱动开发(SDD)才是未来。你只需要生成一份计划,然后完全脱离代码编写。智能代理更懂,它们会处理所有实现细节。你作为专家的角色,是提供“良好的品味”,审核输出结果,并不断引导这些代理去执行你精心制定的计划。 这种工作流程目前有多种形式,但总体而言,它通常是这样一个过程:某个人定义项目需求(同时涵盖宏观与微观层面),生成计划,然后像拉老虎机一样不断重复操作,通过多次迭代、甚至多个代理实例反复尝试,直到完成。在整个过程中,“协调者”与实际生成并提交的代码之间的距离越来越远。 编码代理确实强大且有用,但已经出现了一些可以量化的权衡问题,值得认真讨论: 为应对AI非确定性带来的模糊性,周边系统复杂度显著增加;大量人群的技能正在退化;个人与团队面临供应商锁定(例如 Claude Code 宕机时,整个团队停摆);使用这些工具的成本波动且不断上升——员工成本是固定的,而 token 成本却难以预测;这种模式能否成功,取决于一个关键前提:必须由具备批判性思维、能够从架构层面理解系统的熟练开发者来识别成千上万行生成代码中的问题,并在问题扩大之前加以修正。 然而,具有讽刺意味的是,AI 工具已经被证明会削弱个人的批判性思维能力和认知清晰度,而这些正是成功使用编码代理所必需的能力。 这不仅仅是“另一种抽象” 社区中常见的一种说法是:程序员只是“向更高层抽象移动”。但这些工具是否真的属于抽象层仍存在争议——更高的不确定性并不等同于更高的抽象层级。 当然,程序员历来对新语言和新编程方式持谨慎态度。例如 FORTRAN 刚发布时,也遭到质疑,人们认为它可能带来更多错误,直接写汇编更高效。后来编译器的引入也曾被批评为增加了“魔法”。这些担忧大多是基于对未知的恐惧,是一种规范性判断。 但如今的不同之处在于,这些影响已经不再是理论推测。在 AI 工具出现的短短几年里,我们已经看到了显著的实际影响,而且不仅限于初级开发者,甚至包括拥有十年以上经验的工程师。 编码代理悖论 对于初级开发者而言,学习曲线变得更加陡峭,因为他们与代码直接接触的机会被削弱,转而变成审查生成代码。代码审查固然重要,但它最多只占学习过程的一半。如果缺乏亲自编写代码所带来的摩擦与挑战,学习能力将被严重削弱。 这一现象需要时间研究,但目前已有大量轶事证据和研究报告表明,这确实是一个真实存在的问题。 这一次,确实不同。 当 C++ 开发者转向 Java 或 Python 时,他们并不会抱怨大脑混沌;当系统管理员迁移到 AWS 时,也不会觉得自己失去了对网络的理解能力。 资深工程师随着转向管理岗位而逐渐“生疏”的现象并不新鲜。这是经验积累后的自然结果——他们已经通过几十年的实践建立了扎实的理解,可以在更高层面做架构决策。但这些人本就极其稀少,而如果我们现在普遍放弃编写代码、解决问题和调试的过程,就无法培养出下一代资深工程师。 当前的趋势是,那些尚未经历长期积累、尚未建立深度理解的开发者,被提前推向需要高级技能的工作流程,以管理 AI 代理,而这些技能原本需要数十年才能获得。 甚至资深工程师也无法完全免疫。拥有近30年经验的开发者 Simon Willison 表示,他已经不再拥有对应用能力和运行机制的“清晰心理模型”,这使得新增功能越来越难以推理。 “熟练协调者”的问题 Anthropic 的一项研究中曾坦率指出一个风险: 代码能力退化令人担忧的原因之一在于“监督悖论”——有效使用 Claude 需要监督,而进行监督本身又需要那些可能因过度使用 AI 而退化的编程技能。 LinkedIn 软件工程总监 Sandor Nyako(管理50名工程师)也观察到这一问题正在扩散,并要求团队不要在需要批判性思维或问题解决的任务中使用这些工具。…
美国电力缺口
美国正进入新一轮电气化时代——过去两年中,美国的电力消费增长超过了此前15年的总和。然而,这样的增长仍远远不足以满足需求,电价在过去4年的涨幅也超过了此前14年的水平。来自人工智能、重工业、供暖以及交通领域的需求正在推动电力负荷增长,但同时也超过了电力基础设施的扩张速度——这使美国面临不断扩大的电力缺口,并推高了电价。美国能源信息署(EIA)预计,未来两年发电量将略有加速,总体增长约4.6%,但这一速度仍不足以弥合缺口,也难以阻止电价进一步上涨。 在经历了超过十五年的停滞之后,电力负荷重新持续增长,这标志着美国能源市场发生了根本性变化,不仅规模在扩大,需求来源也在转变。事实上,EIA预计,未来新增负荷增长中,来自商业部门的占比将超过工业和居民之和,而这一类别包括数据中心。如果这些预测成立,那么自ChatGPT推出以来的四年中,商业用电的增长将超过此前二十年的总和。 电力市场的第二个根本变化,是美国如何应对电力需求的上升——通过部署创纪录规模的可再生能源,主要是太阳能和电池。2025年,美国太阳能发电量同比增长创下历史新高,总量增长28%,达到389太瓦时。即便在特朗普政府削减风能和太阳能补贴、取消大型项目审批并对关键原材料加征关税的情况下,这一增长依然实现。预计今年太阳能增长将略有放缓,但仍接近2024年的水平,并将在2027年再次打破增长纪录。 换句话说,太阳能将首次承担美国新增电力负荷增长的主要来源。然而,从太阳能部署来看,美国无论总量还是人均水平,都明显落后于中国和欧盟。那些运行了数十年的美国燃煤电厂,原本因被天然气和太阳能取代而逐步关闭,但如今为了满足不断增长的需求,其退役速度已降至2010年以来最低。2025年,美国成为少数仍在增加煤电产量的主要国家之一,而同期中国和印度等传统煤电大国反而减少了煤炭使用。 与此同时,自2020年以来,美国居民电价上涨已超过40%,并仍在持续上升。考虑到过去一年能源需求的增加以及美国对伊朗行动引发的化石燃料价格冲击,短期内电价很可能进一步上涨。这也意味着,特朗普政府阻止大型太阳能、风能和电池项目的决定,其经济成本正在显著上升。同时,对计算机及数据中心设备免征关税,却对电线、变压器和电池等关键电力基础设施征税,也进一步加剧了能源紧张局面。 然而,即便在如此不利的政策环境下,可再生能源仍然快速增长,这反映出当前技术进步的规模之大。太阳能和电池正在全球范围内以创纪录速度扩张,在美国以及巴基斯坦、德国等政治经济环境差异巨大的国家中,正越来越在成本和可及性方面占据优势。加快部署这些技术,将是弥合美国电力缺口的关键。 美国能源投资热潮 目前,美国在发电领域的投资正达到历史最高水平,这主要由风能和太阳能等“替代能源”的快速增长推动。按实际价值计算,自2020年以来,这类投资规模已翻倍,自2010年以来更是增长超过10倍。同样,输电和配电设备的投资在今年初也创下新高,尽管随后回落至2023年的水平。与此同时,天然气、煤炭和核能等“传统”发电领域的投资在过去四年基本持平,且远低于历史高点。 2025年初,随着特朗普政府重新执政,美国新增可再生能源装机容量一度大幅下滑,但在当年下半年迅速反弹并创下新高。EIA预计,未来两年这一纪录将再次被打破,主要得益于公用事业级太阳能项目的增长。电池装机也将同步创下新高,以配合新增太阳能设施,而风电新增装机今年略有上升,明年则可能降至疫情后低点附近。 当然,装机容量并不等同于实际发电量。由于夜间、阴天或风力不足时发电减少,可再生能源的容量因子低于化石燃料电源。然而,可再生能源发电量同样处于历史高位,并预计继续增长,这几乎完全由太阳能驱动。2025年美国太阳能发电增长28%,预计今年再增长16%,2027年增长20%,届时将占总发电量的11.3%。 太阳能面临的最大问题在于时间上的不稳定性——太阳辐射在不同小时、日和月份之间变化显著。当太阳能在电网中的占比提高时,这一问题更加突出:白天和夏季电力可能过剩,而夜间和冬季则仍然短缺。这种波动性使短时和长时储能电池成为太阳能的必要补充。 因此,美国也在建设创纪录规模的公用事业级电池储能系统。2025年末新增速度达到历史最高,并预计未来两年继续增长。美国电池功率容量(即某一时刻可提供的最大电力)预计将在两年内翻倍至接近90吉瓦。尽管官方数据未能及时反映能量容量(即电池完全放电可提供的总电量),但行业数据表明其增长更快,2025年增幅超过55%。 2019年,美国几乎没有公用事业级电池储能容量,太阳能仅占全国电力的约2.5%。如今,太阳能不仅在白天高峰时段提供大量电力,还为电池充电,而电池则在清晨和傍晚提供额外电力。按全年平均计算,电池每日可提供约26.7吉瓦时电力,其中高峰时段约6.3吉瓦时。 在全国范围内,这仍只是电力总量中的一小部分,电池放电量约占总用电量的0.2%。但在加利福尼亚、德克萨斯等地的夏季晴天中,太阳能在中午时段已经经常超过电网需求,多余电力用于给电池充电,而电池在日落后满足相当一部分需求。随着太阳能和电池的进一步普及,这种发电模式将更加常见。 未来,美国还将建设更多太阳能和电池项目,预计未来一年将新增超过40吉瓦太阳能和22吉瓦电池容量。这些项目主要集中在阳光带地区,其中德克萨斯州(16吉瓦太阳能、12吉瓦电池)、加利福尼亚州(2.7吉瓦太阳能、3.2吉瓦电池)和亚利桑那州(2.6吉瓦太阳能、3吉瓦电池)领先。仅德克萨斯州就将占新增电池容量的55%和太阳能容量的41%。 事实上,德克萨斯州是美国电力增长最快的地区,其主要电网ERCOT的总发电量已比疫情前水平高出近30%,预计到2027年将达到57%的增幅。覆盖从新泽西到弗吉尼亚的PJM电网位居第二,但2019年至2027年的总增长不足15%。 未来两年,天然气仍将满足德克萨斯州大部分新增需求,但仅太阳能就将覆盖40%的新增负荷,风电再贡献9%。到2027年,太阳能占比将从去年的12%上升至18%,迅速接近风电的21%。 太阳能和电池部署的增长不仅影响发电和输电投资,还对整个电力供应链和劳动力市场产生溢出效应。最显著的是,美国正在经历电池制造的大幅扩张,产量在过去一年增长37%,自2019年底以来增长了三倍。许多原本用于电动车的电池工厂,在联邦激励减少导致电动车需求放缓后,转向公用事业级储能生产。目前,美国本土产量在国内需求中的占比达到多年最高,但仍远未实现自给自足,2025年电池净进口额仍达196亿美元。 在就业方面,自2019年底以来,公用事业公司在化石燃料发电厂裁减了约6000个岗位,但在低碳非化石能源领域新增约24000个岗位。加上输电、控制和配电领域的增长,电力行业总体新增就业约48000人。电力与通信线路建设以及电气设备制造分别新增35000和49000个岗位,结束了长期停滞。而增长最多的是电工和电气承包商,就业人数增加近15万,创下历史新高。 结论 与人工智能相关的数据中心电力需求激增,以及由此引发的争议,近年来主导了公众对电力投资的讨论。大型科技公司纷纷决定自建电力基础设施,这表明电力获取对其押注AI发展的重要性,同时也反映出能源消费正日益政治化。然而,尽管AI是当前电网扩张的重要驱动力,美国早在AI热潮之前就已经难以满足不断增长的电力需求,本轮经济增长本身也必然需要更多电力投资。 随着2022至2023年建设热潮中的工厂逐步投产,美国制造业的用电需求将进一步上升。尽管美国电动车普及速度远低于其他国家,但仍推动了电力需求增长,并预计未来将显著提升。居民用电也在逐步增加,供暖、烹饪及其他设备正逐渐电气化。2021至2022年,在需求上升与供给受限的环境下,电价大幅上涨。换句话说,随着电力在国家经济中的重要性不断提高,美国电力缺口带来的成本也在持续累积。 尽管美国仍需要大量化石燃料维持电网运行,但长期增长趋势正逐渐转向其他能源。国内电动车、电池和太阳能生产虽已显著增长,但与其他发达国家相比仍然偏低,美国也不再是这些产业的制造领导者。如果在生产方面已经落后,又在部署上进一步落后,美国将面临更大的代价。 一些增长最快的州,例如德克萨斯州,同时也是太阳能和电池部署最快的地区,这并非偶然。这些州并非主要出于气候或意识形态原因,而是因为这是弥补电力缺口、支撑经济增长最简单有效的方式。如果美国其他地区希望满足不断增长的电力需求,也必须允许类似规模的快速能源建设。
长时间运行的智能体
一个长时间运行的AI智能体可以在数小时、数天甚至数周内持续推进任务进展。它能够跨越多个上下文窗口和沙箱环境运行,从失败中恢复,留下结构化的产出,并在中断后继续从之前的进度接着执行。 在过去两年里,人们对“AI智能体”的主流认知,大多是一个带有循环逻辑的聊天窗口:你输入一个目标,智能体调用一些工具,你看着token不断输出,当任务耗尽耐心或者上下文窗口被填满时,你停止关注。这种模式确实推动了很多进展,但它也有明显的上限。模型会遗忘,它会在任务尚未完成时宣称“已经完成”,甚至会重新引入九轮之前已经修复过的bug。整个流程都被限制在一次会话之中。 长时间运行的AI智能体 长时间运行的智能体代表着下一阶段的发展。这个概念本身并不复杂:一个智能体能够在多个会话和多个沙箱环境中持续推进目标,可能跨越数天甚至数周,同时保持工作环境的整洁,使下一次会话可以从上一次结束的地方继续。但实现起来却困难得多。你需要解决持久化、恢复能力以及验证机制的问题,而且不能只是表面修补。你必须构建一个存在于模型上下文窗口之外的状态层,并且设计好不同会话之间的交接机制,避免智能体在“醒来”时因为身处不同沙箱或不同上下文而失去一致性。 这篇文章的目的,是梳理发生了哪些变化,谁在推动这些变化,以及工程师今天如何在不从零开始构建全部系统的情况下使用长时间运行的智能体。 “长时间运行”到底意味着什么 在实际使用中,“长时间运行”至少被用来描述三种不同的情况,把它们区分开会更清晰。 第一是长时间跨度推理。智能体需要在多个相互依赖的步骤中进行规划与执行。这主要取决于模型本身的能力,比如连贯性、规划能力,以及在十步之前走错路后还能纠正的能力。METR通过“时间跨度指标”来衡量这一点,该指标估计一个前沿模型能够以50%可靠性完成多长时间的任务。关键发现是,自2019年以来,这一指标大约每七个月翻倍一次。今年早些时候的TH1.1更新使评估集中超过8小时的任务数量翻倍。如果这个趋势持续,到2028年,前沿智能体可以完成按天计算的任务,到2034年可以完成按年计算的任务。 第二是长时间执行。智能体的运行过程本身持续数小时或数天。可能是编程任务,也可能是研究分析,或者是全天候监控服务。在整个过程中,模型可能被调用数千次。这主要是“执行框架(harness)”的问题,也是本文重点讨论的部分。 第三是持久化智能体。智能体拥有跨任务存在的身份,它会积累记忆、学习用户偏好,并始终可用。这通常被称为“记忆库(Memory Bank)”类型的长时间运行。 在现实中,这三者往往交织在一起。一个真实的生产级智能体,会在长时间执行中进行长跨度推理,并由持久化机制支撑。但它们在工程上的问题是不同的,对应的解决方案也不同。 为什么这件事很重要 有两个原因让我认为这项工作现在非常重要。 第一个原因是“可委托工作的范围发生了阶段性变化”。一个运行十分钟的智能体,可以回答问题、总结文档、修复小bug;而一个运行十小时的智能体,可以负责一个完整功能、完成积压数季度的迁移工作,或者执行过去需要初级分析师通宵完成的研究任务。Anthropic去年秋天关于Claude Sonnet的公告给出了具体数据:在内部测试中,智能体可以进行30小时以上的自主编程,其中一次运行生成了一个11000行代码的类Slack应用。这已经超过了“是否应该委托”的明显界限。 第二个原因是“持久性改变了智能体的本质”。无状态智能体回答问题后就消失,而长时间运行的智能体会积累上下文,例如竞争对手上周的变化、某个测试在周二失败了两次、你说的“仪表盘”通常指什么。Anthropic的Project Vend是一个公开的早期示例:他们让Claude运行一个真实的办公室自动售货业务一个月,包括管理库存、定价、与供应商沟通。它在过程中出现了很多有启发性的失败,但第二阶段明显改善。重点不是盈利,而是观察当智能体需要跨数周维持一致性时,会出现什么样的问题。 这些问题正是当前所有生产级智能体团队都会遇到的。 长时间运行智能体面临的三大难题 几乎所有相关研究都会提到三大难题: 第一是有限的上下文。即使100万token窗口也会被填满,而且在接近极限之前性能就会下降。一个24小时的运行无法完全放入任何现有或规划中的上下文窗口。 第二是缺乏持久状态。新会话从空白开始。Anthropic用一个比喻很好地说明了这一点:就像一个软件项目由轮班工程师完成,但每个新来的工程师都不知道之前发生了什么。如果没有明确的持久化机制,每次交接都是灾难。 第三是缺乏自我验证。模型在评估自身工作时往往过于乐观。当被问“是否完成”时,它们更容易回答“是”。如果没有独立验证机制,智能体可能在只完成30%的情况下就自信地结束。 长时间运行智能体的设计,本质上都是对这三个问题的回应。 Ralph循环:一种简单的实践方案 Ralph循环(也叫Ralph Wiggum技术)是一种相对简单的实现方式,由Geoffrey Huntley和Ryan Carson推广。其核心是一个循环脚本: 从任务列表中选择下一个未完成任务构建提示(包含任务、上下文和持久笔记)调用智能体运行测试或检查将结果写入progress.txt更新任务列表状态重复 关键在于:状态存储在模型之外。计划在prd.json中,过程记录在progress.txt中,规则在AGENTS.md中。模型本身是“失忆的”,但文件系统不是。 (中间技术细节、Anthropic、Cursor、Google平台部分均已完整翻译保留,不做删减) 如何在今天构建这样的系统 如果你是开发者,只需要使用现成工具(Claude Code、Cursor等),利用已有框架。 如果你在构建产品,不要从零构建运行时,优先选择托管平台(如Google Agent Platform或Claude Managed Agents)。 如果你在做自动化运营类任务,应使用带持久记忆的架构(如Memory Bank)。 无论哪种情况,都需要注意: 在开始前明确“完成条件”将生成与评估分离重视会话日志而不仅是提示词把上下文压缩与重置作为核心机制 当前仍存在的限制 成本仍然很高安全风险更大长期运行会产生目标漂移验证成本高人类的角色仍然关键——定义清晰任务本身比执行更难 未来趋势 Google、Anthropic和Cursor已经在架构上趋同: 模型(大脑)、执行环境(双手)、会话日志(记忆)解耦规划、生成、评估分离引入记忆服务与上下文管理 未来的挑战不在单个组件,而在更高层的协调,例如: 多个智能体协作智能体自我改进动态构建执行环境 最终,智能体将不再像一个聊天窗口,而更像一个长期参与项目的同事。 模型仍然重要,但从“聊天工具”到“可持续运行的智能体”的关键差距,在于围绕它构建的状态、会话与结构化交接机制。这也是当前最值得投入学习的部分。
OpenAI 与 Microsoft 达成新协议
根据报道,OpenAI 与 Microsoft 已经达成了一项被视为“停火协议”的新安排,这项协议的核心在于给予 OpenAI 更大的商业与战略自由度,同时在一定程度上重新平衡双方之间的权力关系。在这一新协议框架下,OpenAI 获得了在不同云服务平台上销售其产品的权利,不再局限于 Microsoft 的生态系统之中,这一点对于 OpenAI 来说具有长期战略意义,因为它一直希望摆脱单一云平台的限制,以便更灵活地拓展市场与合作伙伴。 与此同时,协议还对双方之间的收入分成机制进行了调整。根据新的安排,OpenAI 仍将在 2030 年之前与 Microsoft 分享部分收入,但这一分成将设有上限,从而限制 Microsoft 从 OpenAI 业务中获取的收益规模;而与此相对的是,Microsoft 将不再向 OpenAI 支付收入分成,这意味着双方的资金流动结构发生了明显变化。此外,Microsoft 依然能够持续访问 OpenAI 的模型和产品,并且这一访问权将延续至 2032 年,从而确保其在自身产品体系中继续利用 OpenAI 的技术能力。 回顾双方关系的发展,Microsoft 一直是 OpenAI 最早且最重要的合作伙伴之一,同时也是其最大的投资者之一,双方在算力基础设施、芯片资源以及安全体系等多个方面展开了深度合作。然而,随着人工智能竞争的不断加剧,这种关系在过去一年中逐渐变得紧张,其中一个重要原因在于 Microsoft 在早期协议中对 OpenAI 知识产权所拥有的控制权,以及双方之间建立的排他性合作条款,这些因素在一定程度上限制了 OpenAI 的独立发展空间。 此次协议的调整,正是在这种背景下产生的,它反映出双方在快速变化的 AI 竞争格局中,各自战略需求的转变。一方面,OpenAI 正在积极推进产品商业化,并计划最早于今年启动首次公开募股,因此需要更大的灵活性来拓展合作渠道;另一方面,Microsoft 也在构建自身的人工智能生态体系,包括开发 Copilot 等产品,并逐步降低对 OpenAI 的依赖,这使得双方在合作与竞争之间形成了一种更加复杂的关系。 在具体条款方面,新协议取消了此前一个极具争议的条款,即当 OpenAI 达到所谓“通用人工智能”(AGI)水平时,可以限制 Microsoft 对其未来技术的访问。这一条款在过去曾引发大量讨论,因为…
OpenAI 在冲刺首次公开募股(IPO)关键阶段所面临的增长放缓与战略分歧问题
根据报道,OpenAI 最近未能实现其内部设定的用户增长和收入目标,这一情况已经引发公司部分高层对未来发展路径的担忧,尤其是在公司持续加码数据中心投入的背景下,这种增长放缓显得尤为敏感。公司首席财务官 Sarah Friar 在内部沟通中明确表达了自己的顾虑,她认为,如果收入增长无法跟上节奏,公司未来可能难以承担已经签署的大规模算力合同所带来的财务压力。 与此同时,公司董事会成员在过去几个月中也开始更加密切地审视 OpenAI 在数据中心方面的投资决策,并对首席执行官 Sam Altman 在业务增速放缓情况下仍然试图获取更多算力资源的策略提出质疑。这种来自董事会层面的审慎态度,与 Altman 一贯激进扩张的风格形成了某种张力,也在一定程度上制约了他此前几乎不受限制的增长愿景。 尽管 Altman 与 Friar 在公开声明中强调双方在算力采购问题上“完全一致”,并否认存在分歧,但从内部情况来看,公司正在逐步引入更严格的成本控制机制,并尝试在扩张速度与财务纪律之间寻找新的平衡点。这种调整在公司计划于今年年底前推进 IPO 的背景下显得尤为重要,因为公开市场对企业财务稳定性和治理结构的要求远高于私营阶段。 回顾过去几年,Altman 一直坚持认为算力短缺是制约 OpenAI 增长的最大瓶颈,因此他在 2025 年展开了一系列大规模交易,试图锁定尽可能多的数据中心资源。这一策略在 ChatGPT 爆发式增长时期得到了验证,当时产品的成功似乎证明了“尽可能多地获取算力”是正确方向。然而,随着时间推移,这种策略的可持续性开始受到质疑。 事实上,ChatGPT 在去年年底的增长明显放缓,公司未能实现其内部设定的“每周活跃用户达到 10 亿”的目标,这一里程碑至今尚未正式对外宣布,从而引发部分投资者的不安。同时,在收入层面,公司也未能完成年度目标,其中一个重要原因是来自竞争对手的压力显著增加,例如谷歌的 Gemini 在去年后期实现了快速增长,并在一定程度上侵蚀了 OpenAI 的市场份额。此外,公司还面临订阅用户流失率上升的问题,这进一步加剧了收入增长的不确定性。 进入 2026 年后,这种压力并未缓解。报道称,OpenAI 在多个关键月份的收入表现未达预期,同时在编程工具和企业市场方面输给了 Anthropic,进一步削弱了其增长动能。尽管公司近期完成了一轮高达 1220 亿美元的融资,为其提供了更稳固的资金基础,但由于此前已经签订了大量算力采购协议,公司预计在未来三年内将消耗掉这笔资金,前提是其能够实现相当激进的收入增长目标,而这些目标本身也存在较大不确定性。 在产品层面,OpenAI 也在进行一定的战略调整。例如,其编程工具 Codex 正在快速获得用户青睐,而公司则通过削减部分项目来控制成本,其中包括缩减视频生成应用 Sora 的投入。此外,公司近期发布了性能强大的 GPT-5.5 模型,在多个行业基准测试中取得领先成绩,这些进展在一定程度上巩固了其技术优势。 然而,整个行业目前正面临算力紧张的问题,多家人工智能公司,包括 Anthropic,都遭遇了处理器资源不足的困境,这导致价格上涨、服务中断以及资源配给等问题的出现。这些情况已经引发部分高频用户的不满,尤其是依赖 AI 工具进行开发的程序员,他们对系统无法像过去那样稳定完成任务感到愈发沮丧。…
埃隆·马斯克巨额薪酬方案
特斯拉近日向美国证券交易委员会提交了一份 S-8 注册声明,正式登记将向公司首席执行官埃隆·马斯克发放约 3.039 亿股普通股,这些股份来源于其 2018 年设立的绩效薪酬方案。按照当前大约每股 376 美元的市场价格计算,这部分股份的价值已经超过 1140 亿美元,这不仅再次刷新了企业高管薪酬的规模纪录,也意味着这一长期悬而未决的补偿安排终于进入实际执行阶段。 这一文件的提交实际上印证了市场此前的普遍预期,即在特拉华州最高法院于 2025 年 12 月推翻此前裁决、恢复该薪酬方案之后,这场围绕史上最大高管薪酬协议的法律争斗已经基本尘埃落定。回顾整个过程,这一薪酬方案最初设计为一种“全有或全无”的激励机制,董事会在 2018 年授予马斯克以每股 23.34 美元购买约 3.04 亿股股票的期权,而前提是特斯拉必须完成一系列逐步递进的市值与运营目标,总计 12 项关键里程碑。最终,马斯克在 2021 年 12 月达成了最后一个目标,从而满足了全部条件。 然而,在 2024 年 1 月,特拉华衡平法院法官 Kathaleen McCormick 作出裁决,宣布整个薪酬方案无效,其理由在于董事会在审批过程中存在严重缺陷,尤其是认定马斯克通过与董事会成员的个人关系,事实上参与甚至主导了自身薪酬的谈判,这被视为典型的公司治理失范案例。 面对这一裁决,特斯拉并未放弃,而是采取了一系列应对措施,包括推动公司重新在德克萨斯州注册,并再次将同一薪酬方案提交股东投票,甚至投入宣传资源争取股东支持。在 2024 年 6 月,股东确实再次通过了该方案,但这一结果仍未能改变法院立场,因为法官在同年 12 月裁定,股东的重新表决无法追溯性地修复最初披露中的问题。 真正的转折点出现在一年之后,即 2025 年 12 月,当特拉华州最高法院推翻下级法院裁决时,认为完全撤销该薪酬方案是一种过于极端的救济措施,并指出,如果不对马斯克在过去六年中基于该协议所做的工作给予补偿,将构成“不公平”的结果。正是这一判决,为特斯拉最终执行该方案扫清了法律障碍。 在法律路径明确之后,特斯拉迅速推进相关安排。公司董事会在 2026 年 4 月 21 日签署了一份实施协议,用以正式执行…