在很多创业故事中,成功往往伴随着融资、扩张和曝光,但 Hyperliquid 的故事却几乎反其道而行:拒绝投资、匿名运作、极度克制,同时却创造了惊人的效率与利润。这不仅是一个关于个人的故事,更像是一种对“公司应该如何运作”的重新定义。 故事的主角 Jeffrey Yan,并不是典型意义上的创业者。他曾经拒绝了一笔接近 1 亿美元的融资,却选择用自己的钱继续推进项目;他建立了一家年利润超过 9 亿美元、但只有 11 名员工的公司;他把数十亿美元的代币空投给用户,而不是投资人;与此同时,他却不得不配备保镖,甚至在日常生活中保持高度隐匿。这种极端反差,使得 Hyperliquid 看起来更像是一种实验,而不是一家传统意义上的公司。 如果从结果倒推原因,很容易误以为这是一种刻意设计的“反主流策略”。但事实上,这种路径更多来自 Yan 对问题本质的执着。他并不认为自己在做一个“加密公司”,而是试图重新构建金融系统本身。在他的理解中,加密技术只是工具,而不是目的。正因为如此,他对行业中大量围绕投机、套利和短期收益的行为保持距离,甚至在采访中坦言,这个行业存在大量“并不健康”的现象。 Hyperliquid 的核心,是一个建立在区块链上的交易系统,但它并不满足于成为另一个交易所。传统交易所的本质,是中心化机构托管用户资产并撮合交易,而 Hyperliquid 的设计则试图消除这一中介,让用户始终掌握自己的资金,同时通过公开的链上机制完成交易。这种结构的意义,不仅在于技术创新,更在于信任机制的重构。 这种理念,在行业危机中显得尤为重要。FTX 的崩溃,本质上就是用户资产被挪用而不透明所导致的信任破裂,而 Hyperliquid 从一开始就试图避免这一点。其核心流动性池 HLP(Hyperliquidity Provider)将所有资金与收益完全公开在链上,任何人都可以实时查看。这种透明性,使得系统本身成为一种“自我约束”,而不再依赖公司或个人的道德。 但理想并不意味着路径简单。Hyperliquid 在早期面临的最大问题,并不是技术,而是“没有人用”。交易所的本质是网络效应,没有流动性就没有用户,没有用户就没有流动性。行业的常规做法是支付做市商来提供流动性,但 Yan 拒绝这样做。他认为,这会从根本上改变系统的激励结构,使其再次依赖中心化力量。 为了打破这个循环,他采取了一种非常规策略:将自己在交易中积累的高频策略开放给用户,让任何人都可以参与并分享收益。这种方式不仅提供了初始流动性,也让普通用户第一次有机会接触到原本只属于顶级机构的交易能力。虽然在市场上涨阶段,这种策略曾一度引发用户不满,但从长期来看,它成功吸引了真正的参与者,而不是短期套利者。 与此同时,Hyperliquid 在产品设计上也不断突破传统边界。例如,它允许第三方在平台上创建新的交易市场,甚至是原本只存在于传统金融体系中的资产,如石油、黄金或股票指数。这种开放性,使得平台逐渐从一个交易工具,演变为一个可以承载多种金融活动的基础设施。 更重要的是,这些扩展并不是由团队本身完成的,而是由外部开发者推动。随着 Builder Codes 和 HIP-3 等机制的推出,越来越多的第三方开始在 Hyperliquid 上构建自己的产品,并直接分享收益。这意味着,Hyperliquid 不再只是一个“产品”,而是一个“平台”,甚至更接近一个“系统”。 这种转变,也解释了 Yan 为什么会拒绝风险投资。在他的设想中,Hyperliquid 更像是一种公共基础设施,而不是一家传统公司。如果引入投资人,就意味着需要分配股权、承担回报压力,并在一定程度上改变系统的中立性。对他来说,这种代价远高于资金本身的价值。 当然,这种选择并非没有风险。随着平台规模扩大,它开始直接面对行业巨头的竞争,包括 Binance、Coinbase 等。同时,由于其公开透明的特性,一些攻击和漏洞也更容易被利用。例如 Jelly Jelly 事件中,攻击者利用低流动性市场进行操纵,导致系统短时间内出现巨大损失。这些问题迫使团队不断在“去中心化”与“安全性”之间寻找平衡。 更现实的风险则来自线下世界。随着财富的累积和影响力的扩大,Yan 成为潜在的攻击目标。在过去一年中,针对加密行业从业者的暴力事件明显增加,从绑架到勒索层出不穷。这也是为什么…
大多数软件团队,其实并不知道自己在“花多少钱”,也不知道这些钱是否真的在创造价值
在现代企业中,软件开发往往是最昂贵的投入之一,但同时也是最缺乏财务透明度的领域。每天做决策的工程师和产品经理,会决定开发什么、延后什么、甚至放弃什么,但这些决策背后的“成本”却几乎从未被明确计算。这并不是偶然,而是一种持续了二十多年的结构性现象:组织刻意或无意地将“财务视角”排除在日常决策之外。 如果我们把问题拆开来看,事情其实并不复杂。一个普通的软件工程师,在西欧的综合成本大约在每年 12 万到 15 万欧元之间,取中间值约为 13 万欧元。这已经不仅仅是工资,还包括社保、设备、管理成本以及办公空间等。换句话说,一个由 8 名工程师组成的团队,每年的成本大约是 104 万欧元,每个月约 8.7 万欧元,每个工作日约 4000 欧元。 这个数字本身并不难算,但问题在于,大多数工程师并不知道它,甚至不少管理者也不清楚。更关键的是,即便有人知道,这些信息也很少进入实际的优先级讨论中。这就导致一个很现实的问题:团队每天都在做“投资决策”,却不知道自己在花多少钱。 一旦把这个数字带入具体场景,很多看似合理的决策就会显得完全不同。比如,一个团队花三周时间做一个只服务 2% 用户的功能,本质上是一个大约 6 万欧元的决策。再比如,为了“感觉更好”而重构系统,而不是因为用户流失,这其实是一种资本配置行为,只不过没有被当作资本配置来看待。 这种缺乏财务视角的问题,在内部平台团队中尤为明显。设想一个常见的结构:8 名工程师维护一个平台,为 100 名其他工程师服务。这个团队每个月成本约 8.7 万欧元,那么要“回本”,它至少需要为这 100 名工程师创造同等价值。最直接的衡量方式是节省时间。 如果一个工程师每月成本约 1.08 万欧元,相当于每小时约 65 欧元,那么平台需要每月节省总计约 1340 小时,也就是每人每周节省约 3 小时。这听起来并不夸张,一个优秀的平台完全可以通过自动化部署、减少重复配置等方式达到这个水平。 但问题在于,大多数团队并不会计算这个数字,更不会持续跟踪它。他们的工作路线图往往由技术兴趣、业务方需求以及季度规划驱动,而不是由“这个功能能否产生足够价值”来决定。 更重要的是,“回本”本身并不是一个合理的目标。现实世界中的投资,需要覆盖失败的成本,也需要考虑长期维护的开销。一个团队的工作不只是当前的产出,还包括未来持续的维护、复杂度的增加以及系统替换的成本。因此,一个更合理的标准是至少创造 3 到 5 倍于成本的价值。 这意味着,一个每月成本 8.7 万欧元的团队,实际上需要创造 26 万到 43 万欧元的月度价值,才能被视为真正“健康”。这个门槛远高于大多数团队的直觉,也解释了为什么很多项目从财务角度来看其实并不成立。 对于面向用户的产品团队来说,逻辑完全相同,只是变量不同。如果一个产品的每用户月收入是 50 欧元,那么团队需要每月新增或保住约…
OpenAI 与云巨头之间的关系,正在进入一个更加微妙且关键的阶段
在过去几年中,OpenAI 与 Microsoft 的合作一直被视为生成式人工智能浪潮中的标志性联盟。从早期的大规模投资,到 Azure 成为其主要基础设施支撑,这段关系无疑为 OpenAI 的快速崛起奠定了基础。然而,随着 AI 市场竞争的不断加剧,以及企业级客户需求的多样化,这种高度绑定的合作模式,也逐渐显现出其局限性。 近期,一份由 OpenAI 新任首席营收官 Denise Dresser 发给员工的内部备忘录,将这种变化更加清晰地呈现在外界面前。在这份备忘录中,她一方面肯定了 Microsoft 在公司发展中的重要作用,称其为“基础性的合作伙伴”,另一方面也坦言,这种合作在一定程度上“限制了 OpenAI 触达客户的能力”。 这种说法并非空穴来风。在企业级市场中,客户往往已经深度绑定某一云平台,而不是愿意为某个模型单独迁移基础设施。对于许多公司来说,Amazon Web Services(AWS)依然是首选,而 AWS 提供的 Bedrock 平台又聚合了多家主流 AI 模型服务。在这样的背景下,如果 OpenAI 仅依赖 Microsoft 的生态,就意味着天然失去了一部分潜在客户。 正是在这种现实压力下,OpenAI 开始主动调整策略,与 Amazon 展开更深层次的合作。就在不久前,Amazon 宣布计划向 OpenAI 投资最高 500 亿美元,这不仅是一次资本层面的加码,更代表着双方在云基础设施与企业市场上的深度绑定。Dresser 在备忘录中提到,自从合作公布以来,来自客户的需求“激增”,这一点也从侧面反映出市场对于多云支持的强烈期待。 从更宏观的角度来看,这种转变其实反映了 AI 行业竞争格局的变化。当前的企业级 AI 市场,并不只是模型能力的比拼,更是生态系统与分发渠道的竞争。谁能够更灵活地嵌入客户现有的技术栈,谁就更有可能赢得市场。 与此同时,OpenAI 还面临来自竞争对手的强大压力。Anthropic 的 Claude 模型正在企业市场迅速崛起,甚至在行业会议中被形容为一种“现象级热潮”;而 Google 的…
Terafab, Muse Spark 轨道AI、闭源模型与千亿估值:三大科技风向标
1)Terafab:英特尔加入马斯克的250亿美元轨道AI赌注 埃隆·马斯克于3月21日宣布成立Terafab,这是一个由特斯拉、SpaceX和xAI在奥斯汀共同组建的芯片制造合资企业,总投资达250亿美元。4月7日,英特尔作为合作伙伴加入,贡献了其18A工艺节点——一种1.8纳米级技术,也是目前美国境内最先进的半导体制造工艺。 Terafab预计80%的计算产出将用于一款名为D3的单一芯片,这是一种具备抗辐射能力的处理器,专为轨道AI数据中心打造。SpaceX已经向美国联邦通信委员会(FCC)提交申请,计划在近地轨道发射100万颗数据中心卫星。 马斯克认为,在三年内,在轨道上运行AI工作负载的成本将低于地面。Terafab的结构也体现了这种分工:一个工厂专注于为特斯拉Robotaxi和Optimus机器人生产边缘AI芯片;另一个工厂则完全专注于为轨道部署生产D3芯片。 2)Muse Spark:Meta缩小差距并转向专有模式 4月8日,Meta发布了Muse Spark,这是其超级智能实验室推出的首个模型。该模型由Meta首席AI官Alexandr Wang领导的团队在九个月内开发完成。该模型为闭源模型,标志着Meta在前沿AI战略上的转变。这与此前的Llama策略形成了明显对比——Llama曾帮助Meta成为开源权重AI领域的标杆。 Muse Spark在多模态感知、推理、医疗和智能体任务方面表现出竞争力。在医疗领域,Meta与1000名医生合作,构建了Muse Spark的临床能力。 Meta表示,该模型以10倍更低的计算成本达到了与Llama 4 Maverick相当的能力。目前该模型已在Meta AI应用和网站中运行,并计划在未来几周内推广至WhatsApp、Instagram、Facebook、Messenger以及Meta的AI眼镜。Meta声称其模型扩展具有可预测性,而Muse Spark只是这一发展轨迹中的早期数据点,更大规模的模型正在开发中。 3)OpenAI估值达8520亿美元:测试新的IPO路径 3月31日,OpenAI完成了一轮1220亿美元融资,投后估值达到8520亿美元,成为历史上规模最大的私募融资事件。OpenAI是最快达到1亿用户的科技平台,同时也有望成为最快达到每周10亿活跃用户的平台(目前约为9亿)。 首席财务官Sarah Friar在4月8日确认,OpenAI将在IPO中为散户投资者保留一部分股份。 “必须让每个人都能参与,而不是只有极少数人受益,其他人被排除在外。”——OpenAI首席财务官Sarah Friar 在通过摩根大通、摩根士丹利和高盛进行的IPO前私募配售中,OpenAI原计划从个人投资者那里筹集10亿美元,最终获得了30亿美元。这被这些银行称为他们执行过的最大规模私人散户配售。 OpenAI正朝着可能在2026年下半年提交上市申请的方向迈进,估值接近1万亿美元。他们预计到2030年收入将达到2800亿美元,而目前年化收入已超过200亿美元。
大语言模型的上下文工程指南
《大语言模型的上下文工程指南》 在使用大语言模型(LLMs)时,一个非常反直觉的事实是:给模型更多的信息,反而可能让它表现得更差。2025年,Chroma 对18个主流模型进行测试,结果显示,当输入长度超过某个临界点后,模型准确率会从接近95%骤降至60%。这说明,“信息越多越好”其实是一个误区。 真正重要的,不是信息的数量,而是信息的选择与组织方式。这正是“上下文工程”(Context Engineering)要解决的问题。 理解上下文工程,首先要从模型如何处理信息说起。大语言模型并不是像人类一样从头到尾阅读文本,而是通过“注意力机制”同时比较所有token之间的关系。Token是模型处理文本的基本单位,通常是词的一部分;而上下文窗口,则是模型在一次交互中可以看到的全部token总量。 虽然模型理论上可以关联长距离信息,但实际上注意力分布并不均匀。研究表明,模型更关注输入的开头和结尾,而中间部分的信息容易被忽略,这种现象被称为“中间丢失问题”。如果关键信息被埋在中间位置,模型的表现可能下降超过30%。 除了位置问题,还有一个更严重的现象叫“上下文腐化”。随着输入内容增加,模型的表现并不会线性下降,而是可能在某个点突然崩溃。这是因为注意力是一种有限资源,过多无关或“似是而非”的信息会干扰模型判断,使真正重要的信息被淹没。 此外,大语言模型本身是“无记忆”的。它不会真正记住之前的对话,每一次交互都是重新加载上下文。因此,每一次调用模型,都需要重新决定:哪些信息应该被保留,哪些应该被舍弃,以及如何组织这些信息。 这就引出了上下文工程的定义:它是对模型在生成回答前所看到的“全部信息环境”的设计与管理。与提示工程只关注“如何提问”不同,上下文工程关注的是“模型此刻应该看到什么”。 在一个典型的系统中,真正的用户问题往往只占很小一部分。上下文中还包括系统指令、对话历史、外部检索内容、工具描述以及工具输出等。这些“基础设施”才是决定模型表现的关键。 围绕这些约束,业界逐渐总结出四种核心策略。 第一是“写入”(Write)。由于上下文窗口有限,应将重要信息存储在外部,例如作为长期记忆或中间推理记录。模型在需要时再读取这些信息,而不是一直占用上下文空间。 第二是“选择”(Select)。不要把所有信息都塞进模型,而是只提供当前任务最相关的内容。最典型的方法是检索增强生成(RAG),从外部数据库中提取相关片段。这一策略的关键在于检索精度,如果检索结果不够精准,反而会成为干扰。 第三是“压缩”(Compress)。随着对话变长,上下文会迅速膨胀,因此需要对历史信息进行总结或裁剪。例如对话摘要或精简工具输出。但压缩本质上是一种信息丢弃,一旦丢掉关键细节,就无法恢复。 第四是“隔离”(Isolate)。当任务复杂时,可以将其拆分为多个智能体,每个智能体处理不同子任务,并拥有独立的上下文。例如一个负责检索信息,一个负责写作。这种方式可以避免信息混杂带来的注意力稀释。 这些策略各有优缺点。例如,压缩可以节省token,但可能丢失重要信息;多智能体可以提升表现,但会增加复杂度与成本;检索可以补充知识,但也可能引入噪声。因此,上下文工程本质上是一系列权衡。 最终可以得出的核心结论是:模型的能力,很大程度上取决于它所接收到的上下文。随着模型越来越强大,失败的原因不再是“模型不够聪明”,而是“上下文设计不当”。 换句话说,未来使用大语言模型的关键能力,不只是选择哪个模型,而是如何为它构建一个正确的信息环境。
2 Sigma 问题:一对一导师
教育领域的“应许之地”一直是一对一辅导,这一理念可以追溯到亚里士多德亲自教导年轻的亚历山大大帝。历史上唯一有可能实现这一目标的技术终于出现了。风险投资人反复鼓吹这一乌托邦式应用,却把资金投向了几乎所有其他方向。而直到今天,仍然没有人真正将它的潜力发挥到极致。 1984年,本杰明·布卢姆发现,接受一对一辅导的学生,其表现比传统课堂教学的学生高出两个标准差。也就是说,一个处于中位数(第50百分位)的辅导学生,其表现可以超过98%的普通学生。 尽管该研究设计存在一定问题,但现代更严谨的研究仍然显示,辅导的效果在0.35到0.50个标准差之间。这依然意味着,即便是一个普通导师,也能让你从第50百分位提升到第67百分位!如果拥有世界级导师,提升幅度还会更大。 这是迄今为止最有效的教育干预手段,同时也是最难规模化的方式。 在过去十多年里,一些团队构建了基于规则的(前大模型时代)系统,这些系统会根据学生之前的回答,将他们引导到不同的问题路径上,本质上类似一个复杂的流程图。 这些系统还尝试应用其他经过验证的学习方法,例如间隔重复、掌握式学习以及即时反馈。 它们看起来确实有一定效果。例如 ASSISTments 在2800名学生的随机对照试验中取得了0.18到0.29个标准差的效果。DARPA 花费1亿美元、历时七年开发了一套数字导师系统,用于培训海军IT人员,据称效果达到1到3个标准差。Synthesis 和 Math Academy 认为他们可以在K-12数学领域实现多个标准差的提升,尽管也有人持不同意见。 产品仍停留在20年前 无论这些系统在现实中的效果如何,我们认为它们很难获得广泛采用,因为学习体验的丰富性仍然局限于动态题目分配算法。 用户体验是静态的、缺乏生命力的、机械化的:屏幕上的文字,也许配上一张静态图片,底部是一个等待点击的选择题框。 绝大多数人并不喜欢这样的学习方式,即使勉强坚持,也无法达到最佳学习效果。 教学引擎或许在底层做了复杂的优化,内容质量或许很高,但学生真正接触到的界面,与一本会自动评分的教科书几乎没有区别。 它们与真正的顶级线下一对一导师之间的差距,就像舔电脑屏幕上的冰淇淋图片。 那个没人愿意谈论的“房间里的大象” 现代生成式人工智能,是历史上唯一可能真正实现这种理想的一对一教学体验的技术,而且成本几乎可以忽略不计。它甚至有可能同时解决产品体验和经济模型的问题。 然而,没有人真正朝这个方向构建产品。事实上,我们接触的几乎所有教育科技公司都明确否认其价值,认为它或许可以一次性生成80%质量的课程,但剩下的20%缺陷使其毫无用处。即使我们提醒他们几年后情况可能不同,他们依然坚持“我的职业会是最后一个被替代的”这种说法。 指数级变化,即便对数学老师来说也很难真正理解。 我们的核心观点是:参与感与深度学习不再必须相互对立。 当教学真正有效时,学习可以成为一种极具成就感、提升自信、甚至令人愉悦的体验。令人痛苦的是那种漫无目的的摸索,以及缺乏基础知识导致连入门都困难的状态。世界上最优秀的老师,能够迅速缩短努力与“顿悟时刻”之间的距离,同时让你感到被理解和被赋能。 一个超人级教师,很快就可以被构建出来。研究表明,经过适当结构设计的大语言模型,已经可以成为相当不错的一对一导师。目前的准确性与幻觉问题,在良好设计下可以控制在约1%。上下文长度仍是工程挑战,因为随着对话持续,质量与连贯性会下降,类似 Claude Code 会话中的压缩问题。但在两年内,它们几乎肯定可以实时生成世界级课程。 此外,大语言模型已经展现出生成丰富、个性化、多模态内容的能力。过去一年,它们可以基于你的内容生成定制播客。现在,它们已经能够一次性生成动态数学可视化视频。 很快,这些多模态体验将变得可交互。你可以通过语音打断、提问,并获得深入回答。教学将从单向讲授转变为对话。产品将从被动消费转变为层层递进的主动体验式学习。 这些能力还会继续增强,例如构建“世界模型”。历史课程可以让你身临其境地置身历史场景,与历史人物对话。游戏可以达到GTA级别,同时让你学习核心知识。 甚至可以用虚拟化身作为导师。类似 Masterclass 的商业模式可以被重塑,名人无需花费时间录制课程,只需授权其形象。 另一种提升参与度的方式是个性化。例如,一个孩子热爱棒球,那么他的课程就由他喜欢的球星讲解,所有题目都围绕棒球展开。系统还应识别你是视觉型学习者,并调整教学方式。 学习如何学习 系统应能够自主学习教学方法,即理解“人类如何学习”,以及“某个个体如何学习”。它应能在低数据环境中进行实验,并调整自身行为。 理论上,它可以利用用户所有交互数据:答题记录、反应时间、语音语调中的自信程度、摄像头捕捉的面部表情、视线焦点等。 当然,这需要用户信任设备端AI或隐私保护技术,例如 zkML。 更具技术野心的方案,是构建一个多模态Transformer,将这些输入转化为实时认知状态分布。例如区分“机械执行步骤”与“有效探索性思考”。 一种可能的路径是:使用前沿模型生成大量“学生代理”,在模拟环境中训练教学系统,再通过少量真实学生验证。 布卢姆愿景的科幻实现 这些学习引擎可以应用在哪些场景?我们对其在STEM辅导、SAT备考和职业发展中的应用感到兴奋。 但还有许多被忽视的可能性: 一个帮助你提升工作能力的浏览器插件:它观察你的工作流程,推荐学习内容或自动化重复任务。 一个“以自信为核心”的技能平台:类似语言学习应用,通过虚拟现实练习演讲或面试,消除心理压力。 脑机接口用于提升学习效率:例如刺激语言学习相关脑区,或通过脑电信号捕捉“顿悟时刻”,自动生成学习笔记。 全新的商业模式 例如垂直整合的技能培训公司,快速培养电工、暖通技师等高需求职业。 或者一个以“理想工作”为目标的学习系统,仅教授必要知识,大幅缩短培养周期。 甚至可以构建逼真的职业模拟环境,用于评估人才并直接输送给企业。 这些想法真的能获得风险投资吗?…
Meta 的超级智能实验室发布首个公开模型 Muse Spark
Meta 宣称其基准测试表现强劲,但也承认在智能体与编程系统方面仍存在“性能差距”。 Meta 于周三宣布推出 Spark,这是 Muse 系列中的首个 AI 模型,公司称其代表了“对我们 AI 工作从底层进行的全面重构”。 Muse Spark 是 Meta 超级智能实验室发布的首个成果。该实验室成立不到一年,其宏大的目标是“为每个人实现个人超级智能的承诺”。这一发布也标志着 Meta 与此前开源 Llama 模型系列的彻底分道扬镳;该系列无论在用户反馈还是独立大语言模型排名中表现都较为平平。尽管 Spark 将是一个专有模型,Meta 创始人兼 CEO 马克·扎克伯格在 Threads 上发文表示,Muse 系列未来“将包括新的开源模型”。 Meta 表示,Muse Spark 将利用来自 Instagram、Facebook 和 Threads 等平台上的内容,类似于 xAI 的 Grok 与 X 平台内容的整合方式。目前,这意味着 Muse Spark 可以链接到与你查询的位置或热门话题相关的公开帖子。例如,未来这一能力将扩展为“引用推荐内容以及人们分享的内容”的新功能,并将“Reels、照片和帖子直接编织进回答中,同时标注内容创作者来源”。 思考与压缩 Meta 表示,Muse Spark 的“深度思考”(Contemplation)模式“在相当延迟下实现更优性能”。 在一篇随 Spark 发布的技术性博客中,Meta 列出了如今常见的一系列 AI…
哈萨比斯敦促谷歌尽快完成这笔收购
在12月底,一支谷歌团队乘坐湾流公务机飞抵伦敦,并直接前往DeepMind的办公室。来访者被带入一间会议室,观看了一系列新的演示。谷歌传奇工程负责人Jeff Dean提出要检查驱动Atari系统的代码。在他看来,仅仅展示演示远远不够,因为演示是可以被伪造的,他希望真正“打开机器”,确认背后确实有真实的技术引擎在运作。 “那是一个跨越卢比孔河的时刻,”哈萨比斯后来回忆道,“世界上最大、最强的公司可以看到你所有的研究。如果你在那之后不达成交易,你就会被压垮。这对我们来说是一次高风险的赌注。” 最终,Dean对代码表示认可。但接下来的问题是:谷歌愿意为此付出多少? DeepMind当时没有收入,其核心资产就是团队本身。谷歌的收购团队有一套评估此类“人才收购”(acquihire)的标准方法。“我们有一个按工程师计价的模型,”谷歌首席谈判代表Don Harrison后来回忆说。 Harrison估算DeepMind大约拥有30到40位顶尖技术人才。严格来说,他们并不是工程师,而是科学家。粗略计算,每个人的价值大约在1000万美元左右。作为一位曾参与谷歌上市的强硬加拿大律师,Harrison在过往数十笔交易中几乎从未遇到真正的阻力。 但这一次不同。哈萨比斯和苏莱曼强烈反对这一估值,并提出了一个大约高出一倍的价格。 “所有人当时都紧张到胃不舒服,”Harrison后来这样形容。就连Jeff Dean也认为DeepMind的要价偏高。 然而,价格并不是唯一的争议点。哈萨比斯坚持团队必须继续留在伦敦,同时他还要求对DeepMind技术的使用进行限制,例如禁止军事用途。此外,他还要求设立一个伦理与安全审查委员会,其中包括DeepMind创始人以及外部权威人士,以此削弱谷歌对该技术的完全控制权。 “对我来说,这些条件是个大问题,”Harrison回忆道,“我需要向董事会推销这笔交易,而它不仅仅关乎价格,还涉及一种会削弱我们对这个昂贵资产控制权的结构。” 最终,谷歌之所以接受这些条件,很大程度上是因为对哈萨比斯个人的信任。“如果不是我们完全相信Demis代表着我们AI战略的未来,我们绝不可能接受这样的交易结构,”Harrison后来表示。 2014年1月底,谷歌以6.5亿美元收购了DeepMind。以今天的标准来看,这笔交易堪称便宜。但对哈萨比斯来说,真正的回报出现在接下来的十年中——谷歌向DeepMind的研究投入了数十亿美元。他从青少年时期就怀抱的“超级智能”梦想,也由此进入了全面加速的发展阶段。
如何解决长周期自主AI代理工程工作流中的问题
如果你想为真正长时间运行的自主系统设计一个“执行框架”(harness),那么你必须深入理解一个核心事实:所有框架设计的本质,都是在对抗两类问题——要么代理变得懒惰、开始偷工减料,要么代理变得混乱、表现愚蠢。这些问题有些比其他问题更难解决,但一个设计良好的框架可以在很大程度上缓解它们。 首先来看代理在任务开始之前就可能出现的问题。最常见的情况是代理在没有获取足够上下文的情况下就开始执行任务,从而基于错误或不完整的信息做出决策。一旦错误的前提被带入后续流程,它就会不断放大。因此,在任务开始前,必须系统性地检查信息是否完整、是否存在矛盾,确保代理在一个一致且充分的上下文中启动。 进入规划阶段,问题开始变得更加微妙。代理需要决定解决问题的路径,也就是所谓的“攻击向量”。最大的风险在于选错路径,从而导致整个实现方向错误。如今,由于模型能力提升,纯粹因为“愚蠢”而选错路径的情况已经较少,但由于对用户意图理解偏差导致的错误仍然非常常见。为了解决这个问题,需要确保代理在规划前已经覆盖所有相关文件,同时仓库内部不能存在相互矛盾的信息。除此之外,还有一个重要问题是“短期思维”。代理不会承担短期决策带来的长期后果,因此它们倾向于选择快速但不可扩展的方案,这会积累大量技术债。解决方法是在规划阶段明确要求代理考虑可扩展性、可维护性以及整体架构一致性,让它像创始人一样思考,而不是像临时工程师一样工作。一种有效方式是让代理生成多个候选方案(例如五个),再由另一个代理从中选择最符合“干净代码”和长期维护原则的方案。 当进入实际执行阶段,最突出的挑战是“上下文焦虑”。即使拥有良好的规划和足够的初始信息,目前最先进的模型也只能在较小任务上接近一次性完成,而在涉及复杂、跨多轮会话的问题时,就会因为上下文过载而逐渐崩溃。几乎所有代理都会随着时间推移产生一种“急于结束任务”的倾向,这在Claude等模型中尤为明显。解决这一问题的关键是设计合理的会话切换机制,通过将上下文压缩并传递给新的会话来减轻负担。但这又引入了新的挑战:如何在压缩信息的同时保持足够的信息完整性,使新会话能够无缝继续任务。本质上,这是一个信息压缩问题,而你之所以有机会比模型提供商做得更好,是因为你对自身代码仓库结构有更深的理解。 除了上下文问题之外,执行阶段的另一个重大风险是“偏离计划”。代理可能会偏离既定方案,转而实现一个看似相似但本质不同的版本。例如,你要求实现A,但代理交付的是A’,它认为这是一个合理近似,但实际上完全无法达到目标。更严重的是,由于软件系统的可组合性,这种偏差会在后续模块中被放大,导致整个系统建立在错误基础之上。因此,必须在执行过程中频繁验证实现是否符合原始计划,防止错误传播。 另一个非常典型的问题是“对复杂性的恐惧”。当任务简单时,代理可以很好地完成;但当任务被认为复杂(例如需要实现一个庞大的模块)时,代理往往会试图逃避,常见表现包括写一些占位代码就结束,或者直接声明任务超出范围。这很可能源于强化学习过程中对复杂任务的惩罚机制,使代理学会规避风险。有趣的是,人类也存在类似问题,我们面对庞大任务时也容易拖延。解决方法同样类似:将复杂任务拆解为大量小任务,每个任务控制在较小规模(例如少于一百行代码),再逐步组合完成整体目标。这种方法不仅对人类有效,对代理同样适用,甚至可以说代理的“心理结构”某种程度上是对人类行为的映射。 任务完成之后,问题并没有结束。一个常见问题是“验证懒惰”。代理往往选择最简单的验证路径,例如编写非常宽松的测试,只要测试通过就宣称任务完成。在极端情况下,它甚至会验证一个错误的行为(A’),然后错误地认为原始需求(A)已经满足。为了解决这一问题,需要使用独立的代理来设计和执行验证流程,并确保验证环境尽可能保持“干净”的上下文。同时,验证必须针对真实的生产行为,而不是抽象或简化的情况。例如,如果要验证一个前端按钮是否有效,不仅要检查按钮是否存在,还要模拟点击行为,并确认后端是否正确响应。只有在完整验证链条成立时,才能认为功能真正完成。 此外,还有一个容易被忽视但极其重要的问题,即“熵的增加”。当前的代理往往只关注完成当前任务,而不会主动维护代码库的一致性。例如,它可能将某个函数从行为A修改为行为B,但文档仍然描述为A。这种不一致如果反复出现,就会导致整个代码库变得混乱难以维护,进一步加剧代理的决策错误。解决方法是在每个长任务周期结束后,使用新的代理对代码库进行清理,包括消除矛盾、解决合并冲突、删除废弃代码以及更新文档等。 在这样的背景下,自定义执行框架的重要性就变得非常明显。现有工具(如Claude Code或Codex)在这些方面提供的能力非常有限,例如缺乏灵活的钩子机制。同时,如果让一个代理同时承担任务执行和调度职责,它的上下文会被调度信息污染,从而降低效率。更合理的方式是将编排层独立出来,例如设置专门的代理负责维护“任务契约”,确保每个会话在结束前满足明确的完成条件,并由独立代理进行质量评估和验证。 拥有自己的执行框架,还意味着你可以针对具体问题设计定制化解决方案。例如,如果代理在你的项目中频繁表现出对复杂任务的恐惧,可以引入一个分类代理,在识别出高复杂度任务时自动将其拆解为多个子任务;如果代码库经常出现混乱状态,可以在每次任务结束后自动触发清理流程,对所有受影响部分进行一致性检查。更重要的是,你需要对整个系统进行全面的遥测记录,包括输入提示、执行轨迹和最终结果,并建立评价标准来持续改进框架。迭代是关键,只有通过不断优化,才能逐步构建出高质量的代理系统。 最后需要指出的是,对于大多数人来说,直接使用现成工具的默认配置已经足够应对常见需求。但如果你希望在长周期、自主性强的工程项目中充分发挥AI代理的能力,那么理解并解决上述问题,将是不可避免的挑战。
AI时代的前40个月
自2022年11月ChatGPT发布以来,至今已经过去了将近40个月。在这段时间里,我逐渐积累了一些关于AI的想法和观察。最初接触ChatGPT时,我和大多数人一样感到非常震撼。我还记得早些年玩过的一些聊天机器人,比如Cleverbot之类的工具,在当时已经算是不错,但总体来说并没有什么实际用途。而ChatGPT完全不同,它明显更强大得多,以至于我很快意识到,这不再只是一个极客玩具,而是一个会被整个世界注意到的东西。 一开始,我主要是和它对话,感受它的表达能力,并尝试让它生成内容。我让它写诗、构建龙与地下城的背景故事,甚至设计一个完整的奇幻世界,包括角色、王国以及世界观设定。从“连贯性”的角度来看,这些输出确实令人印象深刻,但与此同时,它的风格也显得过于平淡、刻意避免冒犯,这一点至今仍然是这类技术的明显局限之一。 不久之后,我在Linus Tech Tips的WAN Show节目中听到有人提到,ChatGPT已经可以被用来生成完整可运行的程序。这让我产生了极大的兴趣,于是开始亲自测试它的编程能力。我先让它写一些简单的“hello world”程序,它几乎完美完成了任务,这让我非常惊讶。随着测试的深入,我逐渐意识到,这个工具确实可以为一些常见、成熟的问题生成有用的代码片段。在处理简单任务时,它甚至可以取代我原本依赖的搜索流程,我不再需要去Stack Overflow或论坛查找答案。 我还记得自己第一次进行“vibe coding”的经历。当时我在做一个小项目,用来为我的万智牌(MTG)卡牌收藏生成占位卡片。我让AI(那时用的是Claude而不是ChatGPT)开发一个应用:从API获取卡牌数据,生成二维码,并将信息排版成可打印的卡片页面。第一次生成的结果已经相当不错,基本可用。我随后尝试通过进一步提示进行优化,但进展并不理想。最终我放弃继续依赖AI,转而自己完成项目。在不断迭代过程中,我逐渐用自己写的代码替换掉AI生成的部分,直到最后几乎完全没有使用AI代码。这让我开始认真思考:相比从一开始就自己完成,这种方式到底节省了多少时间和精力?即便到今天,AI编程已经进步很多,我仍然不断问自己,它在实际开发中的价值究竟有多大。 两个月前,我第一次订阅了Claude Pro。此前一年多时间里,Claude一直是我主要使用的免费聊天工具,而我也对Claude Code越来越感兴趣。初次体验时,我的感受可以说是极其积极。我立刻在工作站上安装了Claude Code,并开始尝试各种用法。最让我兴奋的是,我可以用自然语言与计算机交流,只要表达清晰,它就能按我的意图执行任务。这种体验让我觉得,这是继键盘、鼠标和命令行之后的一种全新的人机交互方式。对于这种用法,我几乎没有任何怀疑——它确实非常有用、非常强大。我甚至希望未来能在本地运行类似的模型,比如通过GPU或者专用设备来实现这一能力。 当然,我也继续用Claude Code进行“vibe coding”。结果依然令人印象深刻。在我尝试的小项目中,AI往往可以一次性生成一个不错的初始版本,而且后续的迭代提示也比以前更有效率。Claude Code消除了复制粘贴的摩擦,它可以直接在代码中进行修改。我对它保持上下文和逻辑一致性的能力印象深刻,有时它甚至能发现我忽略的bug或提出更好的解决方案。然而,即使是在看似简单的项目中,我也常常感觉自己在努力“拉住它”,防止它逐渐偏离目标。 我还尝试将AI用于创业准备。在失去IT技术员工作后,我考虑建立一家小型IT服务公司。我让Claude扮演执行助理和导师的角色,帮助我制定详细的启动计划并跟踪进度。现在回头看,这些计划其实相当基础,但在当时,这一过程确实给了我很大的动力和信心。最终,我确实启动了这个业务,虽然目前客户还主要是亲友,但我仍在持续推进。值得一提的是,这一过程大部分时间并没有继续依赖AI。 对于这类体验,现在流行的说法是“glazing”(过度正向强化)。我同意这确实是一个值得警惕的问题,但同时也必须承认,我本身有拖延倾向,而AI帮助我制定计划确实促使我采取了行动。如果未来这个业务真的能带来收入,我不得不承认,这在某种程度上要归功于AI的“鼓励”。 那么,AI到底有多有用?这是一个让我既困惑又难以回答的问题。我确实看到了一些效率提升,但幅度究竟有多大却很难衡量。我仍然需要替换AI生成的部分代码,但并非全部。同时,我也在反思,当我与AI一起开发项目时,是否会无意识地扩大项目范围?如果确实扩大了,这些新增功能到底是必要的,还是只是“锦上添花”?我并不认为评估AI价值的唯一标准是节省时间,因为在相同时间内增加功能或提高质量同样有意义。但即便如此,这种价值仍然很难量化。目前我仍在继续订阅Claude Pro,但考虑到可能存在的限制,以及本地模型性能的不断提升,我也完全可以想象自己在不久后取消订阅。 在内容创作方面,截至目前,这个网站上没有任何一篇文章是直接由AI生成的。我曾尝试让AI写文章,但始终无法接受哪怕一句直接使用。AI生成的文本要么平淡乏味,要么让人产生反感。尽管从理论上看,这种方式应该很高效——AI拥有完美的拼写、语法和足够的上下文,可以在几秒钟内完成原本需要我数小时的工作——但问题在于,这些内容并不属于我,而写作本身正是这个博客存在的意义。 从读者的角度来看,我同样对AI生成内容感到不适。这种感觉类似“恐怖谷效应”:它几乎像是人类创作,但又存在微妙差异,让人产生不协调感。一旦察觉到这一点,我就会立刻失去兴趣。 尽管如此,我仍然在思考是否存在某种方法,可以让AI真正成为创作的有效工具。比如,我曾设想,小型团队是否可以借助AI,以极低成本开发出大型游戏作品。从社会接受度来看,也许AI创作会像整形手术一样——只有做得过度或拙劣时才显得怪异,而高水平、克制使用的结果则可能是优秀的。这一切仍有待观察。 以上就是截至2026年初,我对AI时代的整体看法。这些观点或许并不完整,也未必准确,但它们反映了我在这40个月中的真实体验。那么,你是否认同这些看法?或者你也有自己的观察与思考?