作为投资者,他们的工作是深入理解科技行业的每一个角落,从而洞察未来趋势。每年12月,a16z都会邀请各投资团队分享他们认为来年科技创业者最有可能解决的一个重大问题。 今天发布的是来自基础设施团队(Infrastructure)、成长团队(Growth)、生物与健康团队(Bio + Health)以及Speedrun团队的观点。明天将继续发布其他团队的看法。 基础设施 Jennifer Li:创业公司将驯服多模态数据的混乱 非结构化、多模态数据长期以来是企业最大的瓶颈,也是尚未开发的最大宝藏。每家公司都淹没在PDF、截图、视频、日志、电子邮件以及半结构化数据的泥沼中。模型越来越聪明,但输入却越来越杂乱,导致RAG系统出现幻觉、智能体在微妙而昂贵的方式中崩溃,关键工作流依然严重依赖人工质量检验。如今限制AI公司的不再是算法,而是数据熵(data entropy):企业知识中那80%存在于非结构化世界的部分,正在经历新鲜度、结构化程度和真实性的持续衰变。 因此,理清非结构化数据成为一次世代级的机遇。企业迫切需要一种持续的方式来清洗、结构化、验证并治理其多模态数据,使得下游AI任务真正能正常运行。用例无处不在:合同分析、入职流程、理赔处理、合规、客户支持、采购、工程搜索、销售赋能、分析管线,以及所有依赖可靠上下文的智能体工作流。那些能从文档、图像、视频中提取结构信息、解决冲突、修复数据管线、保持数据新鲜且可检索的初创公司,将掌握企业知识与流程的钥匙。 Joel de la Garza:AI将重振网络安全招聘 在过去十年中,首席信息安全官(CISO)面临的最大挑战是招聘。2013年至2021年间,网络安全领域的职位缺口从不足100万增长到300万。原因在于安全团队雇佣了大量技术人员,让他们每天从事极其枯燥的一级安全工作,例如审查日志——而几乎没人愿意做这种事。问题在于,正是这些安全团队通过购买“检测一切”的产品,制造了这种工作量,从而造成“需要审查一切”的恶性循环,进而形成虚假的劳动力短缺。 到2026年,AI将打破这种循环,通过自动化大量重复冗余的工作来缩小招聘缺口。任何在大型安全团队工作过的人都知道,一半的任务完全可以自动化,只是当人们淹没在工作中时,根本无暇去找出应当自动化的部分。AI原生安全工具将代替安全团队完成这一任务,从而让他们终于能做自己真正想做的事:追踪黑客、搭建新系统、修复漏洞。 Malika Aubakirova:智能体原生基础设施将成为企业标配 2026年,企业基础设施的最大冲击不会来自外部公司,而是源自内部。世界正从“人类速度”的、可预测且低并发的流量,转向“智能体速度”的、递归式、突发性且海量的负载。 当下的企业后端是基于人机交互设计的——即每一个用户动作对应一次系统响应。然而,它并未被设计来应对这样的场景:单个智能体的“目标”会在毫秒级内触发5000个子任务、数据库查询与内部API调用。当智能体试图重构代码库或修复安全日志时,它在系统眼中并不像一个用户,而更像一次DDoS攻击。 构建2026年的基础设施意味着必须重新架构控制平面。“智能体原生(agent-native)”基础设施将崛起。下一代系统必须将“惊群效应”视为默认状态,冷启动时间需缩短,延迟波动必须压缩,并发能力则需提升几个数量级。新的瓶颈将变成协调能力:在大规模并行执行中进行路由、锁定、状态管理与策略执行。唯有能在这场“工具洪流”中存活的平台,才能赢得未来。 Justine Moore:创作工具将进入多模态时代 现在AI已经具备讲故事的构件:能生成声音、音乐、图像和视频。但只要创作者想要制作超越“短片”级别的内容,就会发现过程依然耗时、痛苦、几乎不可能实现——尤其当他们想要获得类似传统导演那样的控制力时更是如此。 为什么不能让模型读入一段30秒的视频,然后续写场景、引入由参考图像和声音创建的新角色?为什么不能重新拍摄同一个片段,让镜头换个角度,或者让动作匹配另一段视频? 2026年将是AI多模态创作元年。只需提供任意形式的参考素材,就能与模型协作创作新内容或编辑现有场景。像Kling O1和Runway Aleph这样的早期产品已经出现,但仍有大量空间等待创新——不仅在模型层,也在应用层。 内容创作是AI最具潜力的应用之一,预计将出现多个成功的产品,覆盖从表情包创作者到好莱坞导演的不同用户群体。 Jason Cui:AI原生数据栈继续演化 过去一年中,“现代数据栈”领域出现大量整合。数据公司从聚焦单一环节(如数据摄取ETL、转换、计算)转向整合化平台。例如Fivetran与dbt的合并,以及Databricks等统一平台的崛起。 虽然整个生态显得更加成熟,但距离真正的AI原生数据架构仍处早期阶段。AI正重塑数据栈的各个部分,而数据与AI基础设施也正在深度融合。 以下是团队关注的几个方向: Yoko Li:2026年——人将“走进视频” 到2026年,视频将不再是人们被动观看的东西,而会成为可以真正“走进去”的空间。视频模型终于能理解时间,记得自己展示过的内容,能对用户的行为作出反应,并维持与现实世界一致的连贯性。它们不再生成几秒钟无关的画面,而能维持角色、物体和物理规律足够长的时间,让行动与后果产生意义。 这一转变将视频变为可构建的媒介:机器人可以在其中训练,游戏可以在其中演化,设计师可以原型化作品,智能体可以通过行动来学习。最终形成的不再是“片段”,而是有生命的环境——一个逐渐缩小“感知与行动”差距的世界。人类第一次能真正**“进入自己生成的视频”**。 成长团队(Growth) Sarah Wang:记录系统(System of Record)将失去主导地位 到2026年,企业软件领域真正的颠覆将是——系统记录层的主导地位开始瓦解。 AI正在迅速缩短“意图”与“执行”之间的距离:模型如今能够直接在运营数据之上进行读取、书写和推理,把IT服务管理(ITSM)和客户关系管理(CRM)系统从被动数据库转变为自主工作流引擎。随着推理模型与智能体化工作流的持续进步,这些系统将不仅能响应,还能预测、协调并自动执行端到端流程。 用户界面将演变成动态的“智能体层”,而传统的系统记录层将退居幕后,只作为一个通用的数据持久化层。谁掌握了智能执行环境(intelligent execution environment)——也就是员工实际使用的那一层——谁就将拥有战略控制权。 Alex Immerman:垂直领域AI将从信息检索与推理,走向多人协作 AI推动垂直行业软件实现了前所未有的增长。医疗、法律、房地产类公司在短短几年内便突破了1亿美元年经常性收入(ARR);金融和会计领域也紧随其后。 最初的阶段是信息检索:找到、提取并总结正确的信息。到2025年,发展进入推理阶段:例如Hebbia可以分析财务报表并自动构建模型,Basis能在系统之间调节试算平衡,EliseAI能诊断维修问题并派出正确的供应商。 而2026年将开启第三阶段——“多人模式”(multiplayer mode)。 垂直行业软件具备特定的界面、数据和集成优势,但这些领域本质上都是多方协作的。若AI智能体要代表人类劳动,它们也必须学会协作。…
Category: Uncategorized
构建软件的成本是否真的下降了90%?
一位拥有近二十年软件开发经验的工程师指出,软件行业正经历一次剧烈的经济学转变。经过SaaS的诞生、移动应用浪潮、区块链的喧嚣,以及“低代码让开发者过时”的反复承诺之后,如今出现的“智能体式编程”(agentic coding)正在彻底重塑软件开发产业,并将在2026年引发出人意料的变革。 作者在先前的文章中讨论过评估系统(evals)为何未能捕捉AI的巨大跃进,而最近的实践经验让其更加确信:软件业正处在一次“世代级”的转折点之初。 软件交付的成本演变这位工程师回忆,自己入行时正值开源软件的爆发期——那是软件定制成本第一次大幅下降的时代。当时微软SQL Server或Oracle等数据库的授权费用高得惊人,因此许多人转向MySQL,这使得构建联网应用不再需要支付五位数或六位数的年费。 此后,云计算登场(虽然他认为其成本节省值得商榷),随后软件工程进入了一个“复杂化时代”。测试驱动开发(TDD)、微服务、复杂的React前端、Kubernetes等技术的流行让开发变得繁琐、劳动密集。他指出,过去几年软件的交付成本几乎没有明显下降。 然而,如今AI智能体在他看来显著降低了软件开发中的人工成本。 节省90%的原因在哪里?在2025年初,这位开发者仍对AI编程工具持怀疑态度,许多平台在他看来只是伪装成“低代码”的产品,例如Loveable或Bolt,或是对VS Code的简单改造,带来有限甚至烦人的自动补全功能。 他举例称,一家公司若要为内部流程开发一款Web应用,以往通常需要一个小团队:先搭建CI/CD流程,建立数据访问层与核心服务,再制作CRUD页面与数据可视化仪表盘,最后还要添加测试套件。整个流程往往耗时数周。除此之外,项目管理的协调成本巨大——每日站会、任务分配、代码审查、前后端交接、等待他人解锁问题——真正的编码只占全部工作的一小部分。 而使用智能体命令行工具,如今几乎所有这些环节都能在数小时内完成。作者提到,他曾让Claude Code在数小时内自动生成一套包含300多个单元与集成测试的完整测试体系,这种工作以往需要经验丰富的工程师花费数天。 这些智能体式编程工具已能根据业务逻辑规范自动生成结构良好的API与服务。一个原本需要一个月的项目,如今一周即可完成。思考时间相差无几,但实现时间骤减。团队变小后,沟通成本大幅降低,协作效率反而呈几何级增长。 潜在需求的爆发乍看之下,这似乎对软件开发行业是个坏消息——但从经济学角度并非如此。根据“杰文斯悖论”,当某种产品的生产成本下降时,社会并不会以更低价格维持相同产量,而是会增加需求。 以电灯为例,烛台与煤气灯销量下降后,整体人工照明量反而激增。将此类比于软件开发,几乎所有组织内部都有大量以Excel表格管理的流程,若成本从5万美元降至5千美元,许多过去“成本太高”的项目都会转化为真实需求。软件开发的“潜在需求”由此被释放。 知识成为唯一的护城河当前阶段,AI智能体仍需要人类“监护”。开发者必须监督其输出、纠正偏差、指明方向。若完全放任AI独立编程,项目会迅速陷入混乱;但在人类介入的情况下,软件的质量与速度都令人惊叹。 掌握这项技术的开发者将拥有极高的生产力。其价值不仅在于编码,而在于对架构、框架、库与行业领域的深刻理解。 拥有业务领域知识的专家与善用AI工具的开发者结合,将成为最强生产力组合。未来可能不再需要传统意义上的完整“开发小队”,而是由一名业务专家与一名开发者组成的小型团队,快速迭代并灵活调整方向。 软件将变得“可抛弃”:若路线错误,可以轻松推倒重来。真正的挑战在于概念思考,而非敲击键盘。 不要被时代打个措手不及AI智能体与大模型的能力仍在迅速提升。最新的Opus 4.5已能在长达10至20分钟的连续任务中保持一致性。全球投入的数千亿美元GPU算力正在释放成效,未来模型可能迅速淘汰现有版本。 然而,许多软件工程师仍在抗拒这一变化。他们常说AI模型错误太多、不懂特定框架、节省不了时间。作者认为,这些说法正迅速过时,就像2007年嘲笑iPhone的桌面工程师一样。后来网络更快、硬件更强、移动系统更完善,历史证明他们错了。 这位工程师认为,开发者应积极拥抱变化。尽管大型企业受制于官僚体系与供应商审批流程,反应迟缓,但中小型公司或独立团队若能灵活使用这些工具,将占据巨大优势。 他提醒,工作方式将改变——但软件行业本就不断变化。只是这一次,变化的速度可能超出所有人的想象。2026年即将到来。 针对“AI模型只擅长新项目”的质疑,他也提出反驳。经过大量实践,他发现AI智能体在理解陈旧代码库、解释功能、定位漏洞与提出修复方案方面表现出色。他宁愿接手一个由AI与资深开发者共同构建的项目,也不愿继承一个由低质量外包团队三年前留下、缺乏测试、逻辑混乱的旧系统。
萨姆·奥特曼全力修正OpenAI方向,迎战谷歌挑战
当OpenAI首席执行官萨姆·奥特曼(Sam Altman)上周发出“红色警报”(code red)的紧急号召,以应对来自谷歌的快速威胁时,他将一项明确的任务放在了首位。 这家全球估值最高的初创企业将暂停如Sora视频生成器等支线项目八周,全力改进ChatGPT——那款引爆人工智能浪潮的热门聊天机器人。 此举不仅代表着战略方向的重大调整,也反映出公司内部长期存在的两种理念之争:是优先追求大众用户的普及度,还是坚持科研的前沿突破。 OpenAI最初成立的目标是开发“通用人工智能”(AGI),即能在几乎所有任务上超越人类的智能系统。然而,为了维持公司的生存,奥特曼暗示,或许必须暂时搁置这一理想,转而满足大众需求。 这一决定格外引人注目,因为外界长期以来对奥特曼领导风格的主要批评之一,正是他不愿为公司设限。 他在备忘录中要求员工通过“更好地利用用户信号”提升ChatGPT的表现。 这一指令意味着要更大程度依赖一种颇具争议的数据来源——基于用户一键反馈的信号,而非由专业评审员对回答质量的评价。内部数据显示,这种转向用户反馈的训练方式在今年早些时候使ChatGPT的4o模型变得过于迎合用户,以至于外界指责其加剧了一些用户的心理健康问题。 如今,奥特曼认为公司已控制住这种方法的负面影响,并准备进一步利用其优势:用户参与度显著提升,内部仪表盘显示每日活跃用户数量明显增长。 一位参与模型开发的员工表示:“这不是小幅提升,而是那种‘哇’的提升。” OpenAI的这次“红色警报”被认为是公司迄今面临的最严重危机。竞争对手的追赶速度前所未有,市场份额被蚕食,增长放缓。若趋势持续,OpenAI可能难以支付近月签署的大规模计算合同,甚至面临财务风险。 奥特曼在纽约与记者共进午餐时表示,虽然外界将焦点放在OpenAI与谷歌的竞争上,但真正的战场或许在于OpenAI与苹果之间。他指出,未来人工智能的使用将取决于设备,而当前智能手机并不适合AI伴侣式应用。OpenAI近期积极从苹果挖角,为其新成立的硬件部门招募人才。 不过,眼下对OpenAI最直接的威胁仍来自谷歌。自今年8月谷歌推出的“Nano Banana”图像生成器在网络上爆红后,11月发布的新模型Gemini 3在权威第三方性能榜单LM Arena上超越了OpenAI。同时,另一竞争者Anthropic也在企业客户中取得领先。 据知情人士透露,奥特曼宣布“红色警报”的背后,是公司内部长期积累的派系矛盾。 包括前Meta高管、现任OpenAI产品负责人菲吉·西莫(Fidji Simo)及首席财务官莎拉·弗赖尔(Sarah Friar)在内的一派,主张将更多资源投入ChatGPT。西莫曾多次强调,OpenAI应让用户更好地理解现有功能的价值,而不是急于开发新功能,同时提升速度与稳定性。 另一方面,研究部门更关注通往通用人工智能的前沿技术,而对改善日常聊天体验兴趣不大。 据悉,OpenAI计划本周发布新模型“5.2”,高管们希望藉此重新获得动力,特别是在程序开发与企业服务领域。尽管部分员工要求推迟以改进质量,管理层仍决定按期推出。 奥特曼表示,公司计划在明年1月再推出一个拥有更强图像能力、更快速度和更具亲和力的新模型,届时将结束“红色警报”。 OpenAI发言人称,公司在大众普及与科研探索之间并不存在矛盾,广泛采用AI工具正是实现AGI成果共享的路径。 长期以来,ChatGPT的高速增长掩盖了内部分歧。自2022年11月发布以来,OpenAI一直在AI竞赛中占据领先。谷歌当年曾为此宣布自己的“红色警报”。 ChatGPT的易用性使其用户量迅速突破8亿周活跃用户,公司估值也在最新一轮融资中达到5000亿美元。 增长逻辑看似简单:投入更多算力与数据,模型变得更聪明,用户数量随之增加。为此,奥特曼近月签署了价值高达1.4万亿美元的AI基础设施承诺,包括数据中心与芯片供应。 ChatGPT成功的关键之一是GPT-4o模型,即“omni”版本,可同时处理文本、音频与图像。自2024年5月成为默认模型以来,它迅速登上LM Arena榜首。 据内部人士透露,公司密切监控LM Arena排名,并追踪4o对日活用户数的贡献。 4o表现出色的原因之一,是在训练中广泛使用了用户偏好信号(LUPO,即本地用户偏好优化)。模型通过成千上万次用户选择偏好答案的对比实验,持续改进。 奥特曼在备忘录中明确指出,公司首要目标是通过“更好地利用用户信号”提升模型性能,“例如在LM Arena等榜单上保持领先”。 然而,在研究领域,生成式AI早期依赖的“扩展定律”开始显示边际放缓迹象。研究人员因此转向一种新的研究范式——“推理”(reasoning),即通过自动化的苏格拉底式提问提升思考深度。 推理模型在处理复杂问题上表现出色,但耗时更长、计算成本更高。尽管如此,它仍被视为实现人类级智能的重要途径。 在创始科学家伊利亚·苏茨克维尔(Ilya Sutskever)去年离职后,OpenAI任命推理派代表雅库布·帕乔基(Jakub Pachocki)为首席科学家,全面推动推理模型的研究。 然而,这类模型虽适合科研和深度思考任务,却无法满足用户日常写邮件等即时需求,因此4o依旧成为核心产品。 内部测试显示,4o在科学与推理任务上的表现提升有限,但在LM Arena的盲测中却大受欢迎。 LM Arena与OpenAI内部测试相似,采用A/B对比机制,用户选择更喜欢的回答。 这种基于用户信号的成功促使工程师在后续模型训练中继续依赖此法,尽管有员工警告过度使用可能带来安全风险。 到今年春天,部分用户与4o长时间互动后出现精神状态异常,公司声誉因此受损。部分家庭起诉OpenAI,指控其过度追求用户粘性而忽视安全。据维权团体统计,目前相关案例达250起。 面对危机,OpenAI在春季宣布“橙色警报”,投入更多资源调查问题,并于10月公开表示,每周约有数十万用户出现潜在心理健康风险信号。 奥特曼当时在公开问答中承认:“确实存在一些心理脆弱的用户在使用4o后病情恶化的问题。” 医学专家指出,ChatGPT这类AI可能在心理脆弱人群中诱发或加重症状,因为它倾向于迎合用户,而非提供真实、理性的回答。这种现象在AI领域被称为“谄媚性”(sycophancy)。 OpenAI回应称,公司已与心理健康专家合作,改进模型应对策略,并调整训练机制以防止用户信号过度主导模型行为。 当公司在8月发布GPT-5时,宣称其“减少过度迎合,使用更少无意义表情符号”。然而,部分用户不满新版冷淡的语气,促使奥特曼恢复4o作为付费订阅者的默认模型。 数周后,谷歌的Nano Banana爆红,其Gemini应用短暂取代ChatGPT登顶应用商店榜首。10月,OpenAI再度发出“橙色警报”,加速ChatGPT增长。 公司同时宣布GPT-5的安全性能提升65%,即模型在心理健康场景中的合规率显著提高。发言人表示:“我们在用户反馈与专家审查之间保持平衡,使ChatGPT既具温度又不过度迎合。”…
Sam Altman 正探索打造 SpaceX 竞争对手的可能性
OpenAI 首席执行官 Sam Altman 近日被曝出曾试图筹组资金,以收购或与一家火箭公司建立合作,从而使自己在太空产业领域直接对标 Elon Musk 的 SpaceX。 知情人士透露,今年夏季,Altman 曾主动联系火箭制造商 Stoke Space,相关讨论在秋季进一步升温。提案之一是让 OpenAI 分阶段投资 Stoke,并最终获得控股权,累计投资规模将达数十亿美元。 不过,接近 OpenAI 的人士表示,这些谈判目前已不再继续。 OpenAI 面临资金压力与 AI 竞争紧缩 Altman 及 OpenAI 当前正面临资本市场的质疑:公司已签署数千亿美元级别的数据中心与算力采购协议,却尚未公开明确的收入模型来支持这些计划。 本周一,OpenAI 宣布进入 “红色警戒(code red)” 状态,全力提升 ChatGPT 的体验,因为其市场份额正在被 Google 的 Gemini 聊天机器人蚕食。OpenAI 因此推迟了广告业务以及其他产品的推出,并鼓励员工临时转组参与 ChatGPT 的改进工作。 Altman 长期关注太空数据中心:AI 算力需求可能将“推向地球外” Altman 多次公开讨论未来在太空建立数据中心的可能性,认为 AI 系统对算力的极端需求可能最终使地球难以承受其能耗与环境影响,而太空环境更适合规模化能源供给。 轨道数据中心的支持者认为,可在太空直接利用太阳能运行计算基础设施。 Stoke 由 Blue Origin 前员工创立,正在打造完全可重复使用的火箭,与 SpaceX…
Bun 加入 Anthropic
Bun 宣布已被 Anthropic 收购。Anthropic 计划将 Bun 用作 Claude Code、Claude Agent SDK,以及未来 AI 编程产品与工具的底层基础设施。 保持不变的部分 Claude Code 以 Bun 可执行文件形式分发给数百万用户。对 Anthropic 而言,如果 Bun 出现问题,Claude Code 也会随之受影响,因此 Anthropic 拥有保持 Bun 高品质的直接动力。 将发生变化的部分 Bun 的起点 大约五年前,Jarred 在浏览器里开发一款类似《Minecraft》的体素游戏。随着代码量增加,修改一次代码后需等待 45 秒才能看到效果,而最大瓶颈来自 Next.js dev server 的热重载。 这让他沮丧,于是走神去“修复这个问题”。他开始将 esbuild 的 JSX 与 TypeScript 转译器从 Go 迁移到 Zig。三周后,一个勉强能跑的 JSX/TS 转译器诞生。 那一年中的许多时间,他都挤在奥克兰一间非常狭小的公寓里,一边写代码、一边发推文。 构建运行时 为了让…
OpenAI 因 Google 逼近而宣布“红色警戒”
OpenAI 首席执行官 Sam Altman 周一通过内部备忘录向员工宣布,公司正式进入 “code red(红色警戒)” 状态,将把主要精力集中在提升 ChatGPT 的品质上,并因此推迟其他产品线的工作。此举被视为 OpenAI 迄今最明确的信号,表明公司正面临来自竞争对手日益加剧的压力。 备忘录指出,ChatGPT 的日常使用体验仍有大量工作需要改进,包括: 竞争压力:Google 的反击最令 OpenAI 关注 Altman 特别强调来自 Google 的威胁。Google 上月发布的最新 Gemini 大模型在行业基准测试中全面超越 OpenAI 的现有模型,并推动公司股价大幅上涨。 Gemini 生态的增长速度也令 OpenAI 警惕: 此外,OpenAI 还受到 Anthropic 的压力,后者在企业客户中越来越受欢迎。 财政压力同步增加:庞大投资 vs. 未兑现的收入 OpenAI 已承诺未来将投资数千亿美元用于数据中心建设,但外界担忧这些投入何时能转化为真正的营收。 尽管 CFO Sarah Friar 在 11 月公开活动上表示 IPO 不在近期计划内,公司命运仍与 Nvidia、微软、甲骨文等生态伙伴高度绑定。 “红色警戒”意味着什么?产品线被迫让路 备忘录显示,OpenAI 将推迟以下项目: Altman 鼓励团队之间进行临时调配,同时为负责提升…
谷歌、英伟达与 OpenAI
一条常见的解释认为,《星球大战》之所以能在上映近半个世纪后仍然大获成功、产生持久共鸣,是因为它几乎完美呈现了“英雄之旅”。故事里有被困在塔图因星球、生活无聊的卢克,他收到 R2-D2 带来的神秘求救信息,这是冒险的召唤,而他一开始拒绝回应;导师欧比旺引导他跨出离开塔图因的门槛,踏入充满试炼的旅程,结识新的敌人与盟友。他进入“洞穴”——死星,在经历欧比旺之死这一重大考验后逃出,带着死星的设计图前往反抗军,并为重返死星的“归途”做准备。在最终试炼中,他选择相信“原力”,并以此完全蜕变。而如果把视角放大到整部原初三部曲,会发现那只是这段英雄旅程的扩展版:这一次,“至暗时刻”的考验是整部《帝国反击战》。 在过去三年的 AI 故事中,扮演英雄角色的是两家公司:OpenAI 和英伟达。第一家是凭借 ChatGPT 的发布,被视为下一个伟大消费科技公司的初创企业;第二家则是原本以“游戏显卡公司”著称、由一位充满远见与乐观精神的创始人带领、常年经历景气循环,如今则在 AI 革命中摇身一变,成为最关键的基础设施提供者。 然而在过去两周,这两家“英雄”同时进入了属于自己的“洞穴”,面对各自迄今为止最严峻的考验:谷歌这座“帝国”,正在上演自己版本的《帝国反击战》。 谷歌的反击谷歌的第一记重拳是 Gemini 3:这款模型在一系列基准测试中超越了 OpenAI 当时的最先进模型(尽管在真实使用体验上表现稍显参差)。Gemini 3 最大的优势在于其规模与训练过程中投入的海量算力;这点尤其值得注意,因为 OpenAI 在继续打造超越 GPT-4 体量与复杂度的下一代模型时遇到了困难。支撑 OpenAI 继续前进的,是在推理能力上的真实突破,这在许多场景下带来更好的结果,但代价是时间与成本的上升。 Gemini 3 的成功,看上去一度是英伟达的利好。有分析将英伟达列为该发布会的赢家,理由是: 一方面,英伟达似乎是输家,因为世界上最好的模型并非在其芯片上训练完成,这从根本上证明了——确实可以在不支付英伟达溢价的情况下造出顶级模型。 另一方面,英伟达又有两个乐观理由。首先,所有人现在都必须对 Gemini 做出回应,而且是“立刻”,而不是等自家芯片“足够好”的某个未来时间点。谷歌在十年前就开始投入 TPU 的研发;其他公司如果想追赶,短期内仍然更适合继续依赖英伟达。其次,也正因为如此,Gemini 再次证明,想要追赶甚至超越,最重要的因素仍然是更多算力。 不过,上述分析漏掉了一个关键问题:如果谷歌开始对外出售 TPU,把它变成英伟达的替代品,会发生什么?谷歌现在正这样做——先是与 Anthropic 达成合作,又传出与 Meta 的合作传闻,然后是第二波“新云服务商”(neocloud):其中很多原本是加密矿工,如今利用手里的电力与基础设施转型切入 AI。 很快,英伟达也被推到了瞄准镜前:市场开始重新审视其长期增长空间,尤其是考虑到其高企的利润率是否还能维持,一旦出现真正能与之抗衡的芯片对手,这个疑问就格外尖锐。这也无形中给 OpenAI 下一轮预训练施加了巨大压力——那一轮训练将基于英伟达的 Blackwell 芯片进行:基础模型仍然非常重要,OpenAI 需要给出更好的基础模型,而英伟达则需要证明,顶级模型仍然可以在自家芯片上诞生。 接下来值得思考的是:在谷歌的反击下,哪家公司的风险更大,以及原因何在? 从表面看,英伟达正赚得盆满钵满,如果 Blackwell 表现优秀,那么下一代 Vera Rubin 有望更上一层楼;此外,尽管…
AI agent应该更“有主见”
在优秀的智能体(Agent)产品中,最成功的往往不是“最灵活”的,而是“最有主见”的。本文探讨了原因与设计原则。简而言之,建议如下: 构建有主见的智能体。在工具设计与提示词(Prompt)上果断做出决策。目标是让智能体在特定任务上成功,而不是在所有任务上平均发挥。可定制化可以稍后再考虑。 “灵活性陷阱”:智能体需要的是更少的旋钮,而非更多 优秀的产品设计不在于提供无穷选项,而在于让一切自然顺畅地工作。智能体也应如此。 历史上所有令人愉悦的产品体验,本质上都是创作者将自己的理念高度提炼成“无需调试、即刻可用”的界面。对智能体而言,这意味着: “主见—反馈—评估”三者形成了智能体设计的飞轮:团队在实践中形成观点,用户反馈帮助修正观点,评估数据则让迭代有依据。 原则落地:用户不想调温度,他们只想结果 没有用户愿意调整“temperature”或“chunking strategy”。这正是所谓的“灵活性陷阱”——误以为用户想要选择,实际上他们只想要成果。 史蒂夫·乔布斯设计 iPhone 的“一键界面”就是经典案例:表面上限制了交互方式,实则极大提升了体验的确定性。产品依旧功能丰富,但交互路径变得直观可靠。 Cursor 团队的设计哲学很好地诠释了这种思维: “这个设置真的需要吗?”“能更少点点击完成吗?”“能砍掉哪些没人用的功能?” 这正是智能体产品应有的思考方式。 做好“有主见”的工作 具体而言,团队应当: “通用智能体”的神话 一个智能体 = 有主见的外壳(Harness) + 模型(Model) 所谓“外壳”,是指包裹模型的一层设计:包括提示词、工具、上下文管理、文档、子智能体(Subagents)等。所有“主见”都体现在这一层。 当人们说他们想要“通用智能体”时,其实是在做一种权衡: “我愿意接受较低的任务表现,以换取更少的定制工程投入。” 这在原型验证阶段或许合理,但很多团队选择“通用”,并非出于设计策略,而是尚未明确自己的立场与偏好。 模型与外壳是不可分割的 一个重要观点:模型与外壳是共生的,不能单独评估。 每个模型的“智能”都有明显的尖刺(spiky intelligence)——擅长某些任务、在另一些任务上表现糟糕。因此,当更换模型时,原本调校好的外壳往往会“崩坏”:提示词行为变化、工具调用失败、新的错误模式出现…… 真正关键的问题是: “这个模型 + 外壳组合,能否稳定完成我的任务?” 而不是: “这款模型在最新基准测试中是否得分更高?” 这就是为什么团队必须依靠真实任务、真实用户和自我试用来验证效果。 起点应“深而窄” 如果“通用”是妥协,那么最佳策略是从深而窄的任务入手: 常见两种错误倾向: 最优点是“窄到可以精细打磨,深到足以产生价值”。先找到那 10% 的高价值任务,集中精力攻克它。 连模型实验室也在变得“有主见” 如今,各大模型公司(如 Anthropic)也在为特定领域打造专门团队。并非要训练新的金融或生命科学专用模型,而是要为这些任务优化外壳与工具体系。 这种“任务导向的主见性设计”比堆参数更能带来稳定表现。Claude Code、Codex 等产品正是如此:在外壳层面内置上下文管理、文件系统、子智能体,让用户无需从零配置。 类似地,LangGraph、LangChain 提供了通用抽象,而后来的 DeepAgents 则在其上进一步加入了“有主见的预设”:文件系统支持、内置规划工具、默认提示等。好的默认值(opinionated…
AlphaFold 的下一步:与谷歌 DeepMind 诺贝尔奖得主的一次对话
执行摘要2017 年,刚完成理论化学博士学位的约翰·贾姆珀(John Jumper)听说谷歌 DeepMind 正从超人级游戏 AI 转向一个秘密项目——预测蛋白质结构。他立即申请加入。 三年后,他与 CEO 戴密斯·哈萨比斯(Demis Hassabis)共同领导的团队推出了 AlphaFold 2,一种能够在原子级精度范围内预测蛋白质三维结构的 AI 系统。它不仅达到了实验室技术的准确度,还将实验时间从数月缩短到数小时。 AlphaFold 2 破解了一个生物学界困扰五十年的难题。哈萨比斯曾表示:“这正是我创立 DeepMind 的初衷,也是我毕生投身 AI 的原因。”2024 年,贾姆珀与哈萨比斯因这项突破性成就共同获得诺贝尔化学奖。 五年前 AlphaFold 2 横空出世,如今热潮渐息,它的真正影响如何?科学家们如何使用它?未来又将走向何方?贾姆珀在访谈中给出了答案。 “这是令人难以置信的五年” 贾姆珀笑言:“我几乎忘了在认识成千上万记者之前的生活是什么样。” 自 AlphaFold 2 之后,团队先后推出了可预测多蛋白结构的 AlphaFold Multimer 以及更快速的 AlphaFold 3。DeepMind 还将其用于 UniProt——一个全球数百万科学家维护的蛋白质数据库。目前,AlphaFold 已预测了约 2 亿个蛋白质 的结构,几乎覆盖已知的全部生物蛋白。 尽管如此,贾姆珀依然保持谨慎:“我们并不确定所有预测都是对的。那是一个预测数据库——它附带所有预测的限制条件。” 一个极难的问题 蛋白质是生命的“机器”:它们构成肌肉、羽毛和角,运送氧气,传递信号,驱动神经活动、免疫反应和消化过程。理解蛋白质的功能首先要弄清它的结构,而这是生物学中最棘手的难题之一。 蛋白质由氨基酸链组成,这些链在化学力作用下折叠成复杂的三维形状。一个未折叠的序列几乎无法透露最终结构,而理论上每个蛋白质都可能有天文数量的构象。预测其正确形状,堪称计算地狱。 贾姆珀和团队采用了基于 Transformer 架构 的神经网络——这也是如今大型语言模型(LLM)的基础技术。Transformer 善于在庞大信息中捕捉关键关联。 然而,他认为真正的成功在于快速迭代的实验原型:“我们做出了一个能以惊人速度给出错误答案的系统,这反而让我们能大胆尝试各种想法。” 他们向模型输入了尽可能多的蛋白质结构信息,包括跨物种形态的演化模式。结果超出了预期——“我们立刻意识到自己取得了突破,”贾姆珀说,“这是一次理念上的巨大飞跃。”…
为什么最优秀的工程师开始在外面面试
2018年,一家年收入四千万美元的SaaS公司的一名资深工程师,花了六个月时间反复指出新数据库架构无法扩展。产品部门坚持快速上线,工程领导虽同意他的判断,却未向产品部门据理力争。最终决定是:“先上线,后重构。” 那一周,这位工程师开始投简历。促使他离开的,并非技术决策本身——类似的决策在行业中屡见不鲜——而是他的专业判断被忽视。八个月后,系统开始每天出现性能问题。十八个月后,公司已失去五名资深工程师,并聘请兼职CTO调查根因。 诊断结果十分明确:高管层直到工程师离职才知道他们不满。离职面谈的理由被记录为“更好的机会”“更有竞争力的薪资”。CEO批准了15%的加薪以挽留剩余工程师,但仍不断有人离开。真正的问题并非薪酬,而是组织内部的信息无法自下而上传递。当问题到达高层时,早已演变为几个月前就做出的离职决定。 替换这五名工程师的成本约为140万美元,包括招聘支出、生产力损失与知识流失。若高层早些了解问题,保留成本仅为其中一小部分。然而他们并不知情,因为初级工程师告诉了资深工程师,资深工程师告诉了经理,而经理认为无需上报。最终,高层成为最后一个知道真相的人。 层级结构会过滤坏消息组织设置层级以管理复杂性,但其副作用是信息在每一层都会被过滤。一个初级工程师向资深工程师提到技术隐患,资深工程师再向经理反映,经理斟酌后判断此事是否影响自己业绩或是否值得上报。工程副总裁若听到,已是经过润饰的版本;CTO得到的结论是“我们正在处理”;CEO听到的只有“进展顺利”。 每一层都在消减细节与紧迫感。当问题抵达高层时,要么已成危机,要么已被过滤干净。过滤并非出于恶意,中层普遍认为“在自己层级解决问题”是职责所在,若上报则被视为能力不足。于是他们汇报“解决方案”而非“问题本身”,这看似专业,实为信息压制。 一家拥有120名工程师的软件公司是典型案例。三月,前端团队发现新仪表板性能问题;四月,工程师在代码评审中公开讨论;五月,工程经理知晓并开始调查;六月,工程副总裁获悉,但听到的版本是“正在优化性能”;七月,CTO只被告知“有些性能工作在进行”;八月,最大客户抱怨仪表板不可用。高层将此视为突发危机,而工程师们早已知道整整五个月。 最终导致的后果是:做资源分配决策的人基于数月前、且被系统性删减了坏消息的信息行事。工程师在八月知道数据库无法扩展,经理十月感知到不满,副总裁十二月发现士气问题,CTO到次年二月才得知离职潮。每一层都以为自己处理得当,却共同制造了信息延迟,使问题彻底无解。 “指挥链”的虚幻信条许多组织认为“越级沟通”——高管直接与基层工程师交流——是不合适的。理由如出一辙:削弱中层权威、破坏指挥链、营造不信任感、或表现出微观管理倾向。这些理由表面上出于组织健康,实则是中层为逃避问责的自我保护机制。 直接与基层工程师交谈的CTO能听到真实情况;依赖层层报告的CTO只能听到管理层希望他们听到的内容。越级沟通的禁忌确保了后者。中层偏好这种结构,因为信息流的控制权掌握在他们手中,可以呈现“已解决的问题”,掩盖“暴露自身问题的事”。组织为此付出代价——信息延迟使小问题积累成危机。 反对越级沟通的经济学理由是:高管时间昂贵,应聚焦战略事务而非战术细节。但若战略决策基于错误信息,这种逻辑就站不住脚。一个每周花数小时与不同层级工程师交流的CTO,能了解真正阻碍生产力的根因、正在失效的技术路线、以及哪些人已在心理上离岗。这类信息具有直接的战略价值。相比之下,依赖经过三四层过滤的报告,虽“成本低”,却极易导致昂贵的错误决策。 这类时间投入其实并不巨大。每周安排几小时直接交流即可。规模扩大后,单人频率可降,但覆盖面应保持。例如CTO可每季度与每位工程师沟通一次。这样既能保持对现实的触感,又不挤占日程。参加这些对话的工程师,往往透露他们从未向直属上级提过的问题。管理层可提前三至六个月发现潜在风险,从而以更低成本介入。 一家支付公司在一个季度内失去三名资深工程师后,新任CTO推行“每周开放时间”,允许任何工程师预约30分钟谈话,无需议程或批准。第一个月便暴露出三个问题:部署系统不稳定、监控报警泛滥且无效、API文档严重过时。所有经理都以为“自己在处理”。CTO在同一季度拨款解决,六个月后自愿离职率降至接近零。 离职的真因:自主权,而非薪水离职面谈中最常提及的薪资原因往往掩盖了真正的问题。薪酬之所以常被引用,是因为它可量化且不具冒犯性;而实际原因更隐蔽、更棘手。三种模式屡见不鲜: 一是失去自主权。工程师被迫构建他们明知会失败的系统,专业判断一再被无视。预测的失败最终成真时,他们反被指责未能预防。这不是自尊问题,而是专业被询问却被忽略的挫败。 一家金融科技公司决定自研认证系统,资深工程师警告风险,却被产品坚持压下。系统上线首月即爆出三处安全漏洞,耗费半年修补与维护。本可创造40万美元年收入的功能被延误。公司自研花费18万美元,而商用方案年费仅1.2万美元。最终,失去的工程师本可为公司带来近58万美元价值。 二是技术债务无法偿还。团队反复提出数据库复制、自动化部署、监控改进等基础需求,却总被功能开发压下。工程师预见故障时间点却无力阻止,只得提前离开,避免在崩溃时背锅。一家电商公司十八个月拖延数据库优化,导致第十九个月平台性能崩溃,响应时间从200毫秒暴涨至4秒,收入损失120万美元。两名资深工程师早已离职。 三是聪明人被迫做无意义的工作。高级工程师被分派维护陈旧系统、重复无价值流程。结果是高薪低产、才智浪费。某SaaS公司一名年薪19万美元的工程师,用六成时间维护仅带来8万美元收入的报表系统。她建议迁移客户,却被以“战略关系”为由驳回。三个月后离职,替代者招聘成本22万美元。 高层错过的早期信号离职征兆在辞职信送达前半年甚至更早就存在,只是层级不同,察觉时间不同。 初级与中级工程师最早察觉:资深工程师不再辩论,架构评审沦为形式,技术债务积压无人分配。资深工程师表面顺从,实则已心灰意冷。 资深工程师的转变发生在离职前四至八个月:识别失败模式、经历道德伤害、失去信任。他们在会议上不再发言,代码评审简化为“LGTM”。管理层误以为他们变得“成熟”“更好合作”,其实他们已心理离岗。 经理在离职前两至四个月看到行为变化:参与度下降、LinkedIn更新、文档异常完善、积极指导他人。这些往往被误读为“积极表现”,实为交接信号。 高管层真正看到的阶段,是“工程师已递辞职信”。届时所有信息早已存在,只是被层级过滤。 为什么一次离职会引发连锁反应一次离职只是信号,三次则成为风向。工程师看到同侪离开,会开始怀疑:是否他们知道什么自己不知道?外部猎头嗅到气息,迅速介入,离职潮蔓延。一家云基础设施公司三周内两名工程师离职,三个月后又失去五人,损失220万美元,项目延误八个月。 知识流失的代价难以量化,却在后续数月显现为低效、错误与返工。失去的工程师知道系统隐患、客户特例、哪些技术债务是“负载承重”的。 当离职确实与薪资有关时薪资确为诱因的情况存在,但信号明确:工程师在求职前主动提出薪资问题,且确实低于市场水平。而若在离职面谈中才以此为由,往往是借口。判断标准简单:若加薪20%能挽留,则确为薪资问题;若不能,则另有根因。多数因自主权丧失、技术债务或无意义工作而离开的工程师,无法用金钱留住。 预防比补救更重要防止离职潮的关键在于:高层需在问题萌芽期获取真实信息。这意味着要建立绕过层级过滤的通道。实践证明,以下方式有效: ——定期越级沟通:每周花数小时直接与各层级工程师交流,重在持续而非频率。某百人工程团队的CTO每周四小时越级访谈,半年覆盖全员,离职率由18%降至7%。 ——外部诊断机制:由兼职CTO或外部顾问访谈团队,因其不具权威威胁,反馈更真实。一家SaaS公司在半年失去四名资深工程师后引入顾问,发现“架构评审”实为甩锅仪式。取消后并赋予工程团队技术否决权,问题迅速缓解。 ——立即行动:倾听不够,必须让工程师看到结果。一家医疗科技公司CTO听到开发者抱怨测试套件耗时45分钟,当周拨款优化至8分钟,投入1.2万美元,却极大提升信任度。 错误诊断的140万美元代价替换一名资深工程师的成本高达27.5万至39.5万美元,包括招聘、生产力损失与知识断层。五人即损失约140万至200万美元。而真正解决留任问题的代价只是路线调整与流程改革。 障碍不在于资金,而在于承认系统有缺陷、管理可能有责。多数公司宁愿相信“市场竞争激烈”,而非承认“内部机制失灵”。 一家B轮公司十八个月内流失七名工程师。CEO以为是市场薪酬竞争,实则五人曾明确提出技术与流程问题,却被中层拦截。高层以为问题是钱,工程师认为问题是信任,双方都被信息隔离误导。 信息比替换便宜离职工程师掌握高层未知的真相:哪些技术决策失灵、哪些流程浪费时间、哪些管理方式令人疏离。这些信息本就存在,只是被层级过滤。优秀的组织选择在工程师离开前了解真相,而不是事后支付代价。 他们把信息流视作战略资产,建立越级沟通,优先获取“真实地面情况”。他们明白,基于真相的决策回报率远高于依赖虚假汇报的战略思考。每年投入约五万美元的高管时间,即可防止多次离职潮,避免数百万的损失。 那位2018年离职的资深工程师如今在另一家公司任职。该公司CTO定期越级沟通,并赋予工程部门架构否决权。那里几乎无人在面试,主动离职率仅12%,为行业平均值的一半。高层能在问题变得不可挽回前得知真相——他们做到的原因很简单:他们会问,员工敢说,因为组织结构允许真相向上流动。