英伟达以200亿美元收购Groq在这笔200亿美元的收购案中,所有人都得到了报酬:风险投资人、员工、创始人,整个股权表上的人都受益。85%的款项立即支付,剩余部分将在2026年底前结清。没有人被落下。 听起来是好消息,对吧? 不完全是。英伟达实际上买下的是一整套可以“武器化”的专利库,这些专利很可能会通过“NPE”(非专利实施实体)被用来对行业发起“焦土战”。英伟达借此得到保护,而其他公司可能将被专利诉讼缠身。 至于 GroqCloud?交易显示它现在已经变成一个只剩下10%员工、没有核心知识产权、没有技术领导的空壳公司,而250万名开发者正在困惑:现在到底是谁在运营这项服务? 让我们详细看看。 收购结构 这笔200亿美元的交易大致如下分配: Groq股东(包括风投、员工、创始人): 加入英伟达的Groq员工(约占90%,约550人): 暂停一下,90%的员工加入英伟达意味着什么?这大约是550人。这并不是外界猜测的“只挖几位关键工程师”,而是一次史无前例的大规模“人才收购”。对比来看:Instagram 13人被收购价10亿美元,WhatsApp 55人被收购价190亿美元。而英伟达此次以200亿美元买下550人,相当于人均3600万美元。英伟达绝对是认真的。 剩下10%留在GroqCloud的员工: Chamath的Social Capital预计可获约20亿美元(有传闻可能高达40亿美元)。好消息是——其他人也都赚钱,没有人被抛弃。 为什么是200亿美元?专利焦土战略 在上一篇文章中我提到过:英伟达得到的是Groq的团队、其在SRAM优先推理架构上商业化落地的经验,同时也消除了一个潜在威胁GPU主导地位的竞争者。 但我忽略了一个关键点:Groq的专利组合很可能被转移到NPE(非专利实施实体)手中。换句话说,这些专利会成为战略性专利诉讼的武器。 运作方式如下:GroqCloud 仍作为壳公司存在,持有专利。这些专利未来可能被出售或转移给某个专门从事专利诉讼的NPE。NPE 不生产产品,他们的业务就是——打官司。 想象一下:如果谷歌、亚马逊或其他公司尝试研发基于SRAM的推理芯片,NPE就会拿着Groq的专利起诉他们。目标公司只有两个选择: 而英伟达呢?他们已经获得非独占授权,可以自由使用,不受限制。换句话说,英伟达“被保护”,其他公司“被困住”。 这就是英伟达的“焦土战略”——在SRAM推理领域筑起一道专利壁垒。 GroqCloud作为独立公司并非重点,它只是副产物。剩下的10%员工只是为了维持客户合同运行,直到英伟达彻底整合技术与知识产权,并让专利组合成为竞争护城河。 GroqCloud 的困境 但问题来了。英伟达拿走了所有IP,90%的员工加入英伟达,那么GroqCloud还剩下什么? 让我们简单算算: 因此,留在GroqCloud的实体,没有IP、没有技术领导、没有研发团队——只有一位财务主管在掌舵。那他们到底还在干什么? GroqCloud的大客户 2025年2月,沙特阿拉伯承诺投资15亿美元扩建Groq在达曼的数据中心。Groq打造了该地区最大的推理集群,为“覆盖近40亿人口的中东及邻近地区”提供服务。 GroqCloud还在美国、加拿大、欧洲和中东运营13个设施。这些必须继续运行、履行合同、维持服务——这大概就是那10%员工的职责。 但没有IP、没有研发能力的他们,只能“维持现状”,无法创新。换句话说,他们不过是一个运营英伟达技术的托管服务公司。 至于那所谓“经济参与权”?参与什么?一个没有护城河、没有技术团队、没有知识产权的云服务公司?这部分股权的价值,最终只能由英伟达说了算——当GroqCloud被完全吸收或关闭时。 不止沙特 沙特的投资最引人注目,但GroqCloud的客户远不止此。截止收购前,公司已有250万开发者,2025年营收预计达5亿美元,并服务大量《财富》100强客户。 一些关键合作包括: 设想一下,你是这些客户之一——刚刚完成GroqCloud的系统集成,或正在基于LPU架构规划2026年的产品路线图。 突然得知: 当你提交支持工单,谁来答复?当你需要企业部署的新功能,谁来开发?当Llama API需要升级支持Llama 5时,谁来对接? 如果你是IBM,刚在10月签署了Groq合作,到了2026年第一季度该怎么办?如果你是那250万名GroqCloud开发者之一,会不会开始寻找替代方案? GroqCloud或许能继续运行现有服务,但它还能创新吗?还能竞争吗?当构建整个体系的团队都离开后,它还能跟上AI行业的迭代速度吗? 总结 所有人都拿到了钱 :D。实现与知识产权归英伟达 :/.GroqCloud 成为一个“僵尸公司”,继续服务现有客户——直到无法为止 :(.
Author: aitrendtrackers@rengongzhineng.io
知识工作中的杰文斯悖论
19世纪,英国经济学家威廉·斯坦利·杰文斯(William Stanley Jevons)发现,一个看似矛盾的现象:当技术进步提升了煤炭使用的效率时,煤炭的总体需求量反而上升了。按照常理,如果假设需求保持不变,提高效率理应减少煤炭的消耗。但现实恰恰相反——效率的提升反而带来了巨大增长,因为资源的使用场景被大大扩展了。这个“杰文斯悖论”在工业化进程中屡次被验证,尤其是在技术领域。 举例来说,早期的大型主机时代,全球仅有数百台主机,只有世界上最大的企业才能负担得起。而到了小型机时代(大型机的更小、更廉价版本),全球的设备数量达到了几万台。再后来进入个人电脑(PC)时代,出货量则达到了数百万台——在短短三十年间,每一代计算机的普及率都提高了约一百倍。 在20世纪70年代,只有财富500强企业才能使用强大的软件来处理会计工作。而到了2000年代,随着云计算的出现,全球每一家理发店都能使用类似的工具。这种转变同样发生在CRM系统、通信技术、营销自动化、文档管理软件等几乎所有企业软件领域中。大型企业曾经在采购、安装、维护、计算能力等方面的巨大优势,几乎在一夜之间因云计算而消失。 因此,计算技术的效率提升实现了确定性工作的自动化普及(通过软件实现),这一趋势在几十年间席卷了几乎所有行业。然而,绝大多数企业的工作其实是非确定性的——也就是说,它们涉及复杂的判断与创造,例如审阅合同、编写代码、生成广告创意、进行高级市场研究、提供全天候客户支持等成千上万种任务。 人工智能代理(AI Agents)的出现,将使这类非确定性知识工作的民主化成为可能,这将彻底改变商业的许多方面。如今,大型企业可以轻松地在不同项目间调配资源,敢于投入实验性想法,能够为新项目聘请顶尖的律师或市场专家,甚至可以快速雇佣工程师来构建新计划。而这种灵活性与资源优势,通常是经过数十年甚至上百年成功经营才能积累的。也正因为如此,全球绝大多数公司与创业者在起步之初就面临着极大的劣势。 但AI代理从根本上改变了这种局面。它显著降低了组织中几乎所有任务的投入成本。许多人在思考投资回报率(ROI)时,错误地将“R”(回报)视为关键变量,而真正的杠杆点在于降低“I”(投资)的成本。任何经历过预算规划的人都清楚,经营企业时资源永远是稀缺的。当你是一个小团队时,你必须在营销网页、产品功能开发、客户支持、财务处理、新渠道拓展等多种任务之间艰难取舍——每一项投入都会牵制增长的潜力。 而现在,AI正在打破这种核心约束——即“执行任务的成本”。有位网友Roon在X(前Twitter)上指出,如今任何普通人通过AI所能获得的教育与辅导资源,甚至超过了过去贵族阶层能得到的。而在商业领域,今天的每一家小公司都能获得相当于十年前财富500强企业的技术与人才资源。 由于进入门槛的降低,许多领域的工作需求将增长10倍甚至100倍。过去那些因为成本过高而从未尝试的项目,如今都能轻易启动。想象一家十人规模的服务公司,以前他们没有自建的专属软件系统。要从零开始开发一个完整应用、确保其长期运行、安全稳定并响应客户需求,至少需要多人长时间投入,因此项目根本不会被启动。而现在,团队中的某个成员可能只需几天就能用AI生成原型、验证其商业价值。这种场景几乎可以套用到任何类型的组织任务中。 当然,许多人会担心:在这个新世界里,所有的工作都会消失吗?事实并非如此。尽管AI让我们能自动化许多任务,但真正创造价值的完整工作流程仍然需要人类去统筹、监督与提供上下文。过去几年AI模型性能的提升,确实让AI输出的质量显著提高,但距离“完全自主、能完美执行并持续维护”的AI仍然相差甚远。 我们已经看到AI能够替代人类完成许多具体任务(如市场研究、功能代码编写、广告内容创作等),但要将这些任务整合进真正创造价值的完整流程,依然需要人的判断与努力。即使未来AI能执行更多完整的工作流程,人类也会对工作成果提出更高要求。最终,今天的“工作”将演变成明天的“任务”。 事实上,这种情况在历史上屡见不鲜。如果你在1970年代告诉人们未来会有Figma或Google Adwords这样的工具,他们可能会认为市场营销岗位会大幅减少——因为未来一个人就能做许多岗位的事情。但结果恰恰相反。粗略估算(基于AI的数据分析)显示,1970年代美国与营销相关的从业者(公关、平面设计、广告等)大约有数十万人,而如今已达到数百万。 为什么在技术让工作效率提高数倍的同时,岗位数量却增长了五倍以上?正是因为效率的提升让更多企业能够参与其中。过去广告业仅属于大型消费品或汽车公司,如今几乎所有小企业都能开展营销活动。营销技术、CRM系统、数据分析、图形设计软件、投放平台、新的分销渠道等科技手段,让更多企业能证明做复杂营销是“划算的”。AI的普及将使这种现象在更多行业中重演。 杰文斯悖论正降临到知识工作领域。通过让执行各种任务的成本大幅降低,我们最终会做得更多。未来绝大多数AI计算资源(tokens)将用于我们今天根本不会做的事情——那些原本不会启动的软件项目、不会被审阅的合同、不会被发现的医学研究、以及不会被推出的营销活动。
大型公司中优秀工程师为何也会写出糟糕代码
大型公司中优秀工程师为何也会写出糟糕代码 每隔几年,总有人注意到大型科技公司有时会产出令人意外的粗糙代码。如果你没有在大公司工作过,可能很难理解这是怎么发生的。大型科技公司薪资丰厚,足以吸引许多能力出众的工程师。他们的开发节奏也相对缓慢,看起来似乎有充足时间打磨出高质量的作品。那糟糕的代码究竟是如何出现的? 大多数代码改动都由“新人”完成 主要原因在于:大型公司里充满了在非擅长领域工作的工程师。平均来看,大型科技公司的员工任期通常只有一到两年。事实上,这些公司的薪酬结构本身就设计成让工程师的工作周期被限制在四年之内:四年后,最初的股票赠与完全归属,意味着工程师可能面临 50% 的收入骤减。公司虽然会临时提供每年的“股票刷新”(refresh),但这显然会促使工程师去寻找下一份能重新锁定四年股票的新工作。 如果把公司内部的“团队调动”也算进去,情况就更糟了。笔者职业生涯中,在同一个团队或同一代码库待得最长的时间是三年——那还是刚入行时。如今几乎每年都会经历一次重组,甚至更频繁。 然而,大公司中代码库的寿命却远远更长。笔者目前维护的许多服务已有十年以上历史,期间换过无数个负责人。这意味着,许多工程师总是在“摸索中工作”。相当高比例的代码改动都出自“新手”之手——也就是那些刚加入公司、刚接触这套代码库、甚至刚开始学习这门编程语言不到六个月的人。 “老手”的作用 在某种程度上,这个问题由所谓的“老手”部分缓解。这些工程师长期围绕某个系统工作,积累了深厚的经验,能在代码审查中指出明显问题。但依赖“老手”有两个问题。 首先,这完全是非正式机制。大公司在培养系统级长期专家方面投入甚少,甚至在获得专家后也几乎不在意如何留住他们。这些人常常被调往其他服务,只能出于“志愿”心态继续维护旧系统,否则也得像新人一样在新系统里重新摸索。 其次,有经验的工程师几乎总是超负荷。在某个服务上拥有深度专业知识的人总是事务繁忙,根本没有时间亲自审查每一次改动,也无法参与所有技术决策。别忘了,他们也有自己的工作任务——如果他们把全部精力花在评审和会议上,反而会因为个人产出不足而被公司批评。 “中位数级别”的高产工程师 把这些因素放在一起,大型公司中“中位数级别的高产工程师”通常是这样的: 他们几乎都在赶工期,或者同时被多个项目的重叠截止日期压着。换句话说,他们尽力而为,但环境本身并不支持产出高质量代码。 这就是“显而易见的糟糕代码”出现的原因。例如,一个初级工程师接到修复某个讨厌 bug 的任务,对这份代码库几乎一无所知。他花了几天时间摸索,想出一个临时补丁式的解决方案。一位“老手”(如果幸运的话)在空闲半小时内看了一眼,否决原方案,并建议一个稍好、至少能用的替代办法。初级工程师尽力实现、简单测试通过、经过一次简短评审后便上线。所有人立刻转向下一个更高优先级的任务。五年后,有人看到这段代码,惊叹道:“天哪,这写得太糟糕了——这么大的公司怎么会有人写出这种东西?” 大型公司对此心知肚明 作者指出,他曾在多篇文章中分析这种公司内部的技术动态。最直接的一篇《像软件公司一样思考》中,他认为大公司始终优先追求内部可读性——即“能一眼看出谁在做什么,并能随时更换人员”的能力——而非生产力本身。 他们很清楚,让工程师“可替换”、频繁调动,会削弱在某一代码库中积累深度经验的能力。但这是一种有意为之的权衡:公司愿意牺牲一部分专业性与代码质量,以换取在“本月最热门问题”出现时,能迅速调动熟练工程师的灵活性。 这种策略究竟是好是坏,作者也不确定。但显然,它对大公司运作是有效的——尤其在如今“你能多快转向 AI 相关项目”成为竞争核心的时代。既然公司主动选择这种模式,那么产出一些真正糟糕的代码就不可避免。当你要求工程师在不熟悉的系统上快速交付成果时,这就是自然后果。 个体工程师对此完全无能为力。尤其在 2025 年,如今权力的天平更加倾向于公司高层而非工程师。个人能做的最好努力,就是尽量成为一个“老手”:在至少一个领域积累专业知识,用它来阻止最糟糕的改动,并在团队中引导出至少“合理”的技术决策。但这常常是逆流而行,若处理不当,甚至可能导致你被绩效警告(PIP)或更糟的后果。 “纯粹”与“不纯粹”的工程 作者认为,这一切归根结底源于“纯粹工程”与“不纯粹工程”的区别。 对“纯粹工程师”而言——他们从事的是自成体系的技术项目,例如编程语言或算法开发。在他们看来,糟糕的代码只可能出自能力不足。 而“不纯粹工程师”更像水管工或电工。他们总在赶进度、处理新项目,即便技术功底扎实,也不可避免地会被某些奇怪、意外的环境因素拖累。在这种情境下,写出一些“不完美代码”几乎是必然的。只要系统整体能正常运行,项目就算成功。 在大型公司中,工程师往往无法选择自己是做“纯粹”还是“不纯粹”的工程。那不是他们的代码库!如果公司想让你从数据库基础设施转到支付系统开发,他们有充分权力这么做。你在陌生系统中犯错的可能性——或你的旧团队因失去你而遭遇困境——这些都是公司而非工程师本人所做的取舍。 指出大公司代码糟糕的例子是没问题的。至少这能促使具体问题被修复——因为高层往往乐于把“坏名声”转化为“好公关”。但作者认为,把责任主要归咎于工程师是错误的。即便你能挥动魔杖让所有工程师能力翻倍,糟糕代码仍会存在,因为几乎没有人能在全新的代码库中毫无错误地快速修改代码。根本原因在于,大多数大公司工程师被迫在自己不熟悉的代码中工作。
如果 Meta 的人工智能模型能够读取全脑信号,为什么大脑自己不能?
文章以磁感应现象开篇,指出候鸟与海龟能利用地球磁场导航,这种能力被称为“磁感受”(magnetoreception),并举出多种生物实例:磁性细菌通过体内磁铁矿链条实现导航;陆生植物的生长与萌发会受微弱磁场影响;蜜蜂腹部含有磁铁矿,能依磁场定向;美洲蟑螂在特定射频下行为紊乱;果蝇依赖隐花色素在蓝光下识别磁方向;帝王蝶利用磁感应与时间补偿完成迁徙;红海龟幼体能在人工线圈磁场中定向;鲤鱼在池塘中自然排列南北;鲨鱼与鳐鱼借洛伦兹壶腹感知电磁场捕猎;蝌蚪的取向与视觉系统的磁感耦合;箱龟在磁场被扰动时失去归巢能力;小鸡能靠磁罗盘找到社交奖励;信鸽在头部磁场改变时偏离航向;盲鼹鼠在地下拥有独立于光的磁罗盘;牛与鹿的放牧队形在全球范围呈南北朝向;家犬在平静磁场下排泄姿势会对准南北;人类的 α 波脑电在地球磁场旋转时出现方向特异反应。 作者指出,进化似乎“钟爱”磁场感知,因为拥有方向感有利于生存,而这种感应方式几乎在所有生命中都能找到,包括人类。 接着文章谈到,科学家已确认人类确实能感知磁场。2019 年,加州理工学院研究人员让志愿者进入屏蔽地磁的房间,内部有可控制磁场的大型发生器,并用脑电图(EEG)监测大脑活动。结果显示,部分受试者在磁场变化时出现明显脑电反应。 作者由此提出疑问:既然人脑能对磁场变化作出反应,却并未自觉意识到,那是否可能影响情绪?甚至调侃说,也许不该太轻视占星术——毕竟月球引力确实能影响地球磁层。 随后转入“生物磁学”(biomagnetism)的定义:即“由生物体产生的磁场现象”。文章列举多种能产生磁场的生物实例,如:弱电鱼的电器官会产生脉冲电流并形成可检测的纳特斯拉级磁场;蚯蚓的神经动作电位能被磁共振光谱检测到;小龙虾巨轴突的电流能生成 10⁻¹⁰ 至 10⁻⁹ 特斯拉的磁场;青蛙坐骨神经动作电位能产生皮可特斯拉级磁场;豚鼠的离体心脏可被磁心电图检测;猫的听觉皮层磁场可由脑磁图测得;猕猴的触觉与听觉反应也可用 MEG 映射;兔子的麻醉状态下大脑去极化过程能被 SQUID 磁仪探测;人类体内可常规测得心磁、脑磁、肌磁与神经磁信号。 作者解释道:人体依靠电信号运行,因此自然也会产生磁场。而令人着迷的是——我们既能检测磁场,又能制造磁场。 接着介绍脑磁图(MEG,Magnetoencephalography)技术——一种通过测量大脑内电流产生的磁场来绘制脑活动图像的功能性神经成像方法。文中指出,Meta 公司的研究人员利用 MEG 成功将人脑磁场解码为图像和文字。作者调侃说:“谁还记得我们在 2023 年就已经成功读取人类思想?” 研究人员通过在公开的 MEG 数据集上训练模型,然后用这些模型解码实验参与者的脑活动。论文中写道:“总体而言,我们的结果显示,MEG 可以以毫秒级精度解读大脑中复杂表征的生成过程。” 作者感叹,这意味着我们能从磁场中读取大脑的“高保真”思维信息。也就是说,大脑的磁场就像是一种能以毫秒级精度实时反映脑状态的输出信号。于是提出新的问题:既然人类能感知磁场,也能生成磁场,那大脑是否可能“读取”自身的磁场?进化怎么会放过这样一个可用来感知自身状态的“无线摘要”系统?这或许正是哲学与神经科学长期未解的“绑定问题”(binding problem)的答案。 接着文章引出“磁铁矿生物成矿”(magnetite biomineralization)的科学机制:这是一种由基因控制的生化过程,生物体可制造出完美的铁磁晶体,通常为单磁畴结构。这一机制早在 20 亿年前的磁性细菌中就已进化出来,并可能被更高等生物(包括人类)所继承。换言之——人脑中确实存在由自身生成的铁磁晶体,这是已被确立的科学事实。 不过作者也提醒不要过于兴奋——地球磁场的强度要比大脑磁场强 5000 万到 5 亿倍。因此,虽然这些晶体能检测地球磁场,但是否能感知大脑自身的微弱磁场仍是疑问。作者给出的答案是:“完全有可能。” 这些铁磁晶体的尺寸恰好处于能与特定脑波频谱(即神经振荡)发生共振的范围。这种称为“随机共振”的现象在数学上可在大脑中实现,能让这些微晶体在局部区域抵消地球磁场,从而感应到更微弱的自体磁场。 于是作者总结出三个条件: 接下来的部分题为“万物皆计算”。作者提出假设:如果这些晶体能“读取”磁场,那么它们也可能“写入”磁场,因为神经化学作用可以比磁场本身更容易地影响这些晶体。也就是说,大脑或许可以通过这些“生物磁铁”自我调节。 他进一步推想:大脑的磁场代表了当下思维的全局状态,是对神经元活动的即时压缩信号,延迟几乎为零,只受光速限制。而大脑可能利用这种“类比压缩”来整合庞大的信息,使之成为可用于决策的全局输入。 但如果大脑能“读取”,就必须也能“写入”。作者于是引入一个关键的生理结构——蓝斑核(locus coeruleus,意为“蓝点”)。这是一处位于脑干中心的小区域,负责合成去甲肾上腺素(norepinephrine),调节大脑的警觉、专注与可塑性。蓝斑核的投射范围极广,从脊髓、脑干、小脑、下丘脑到皮层几乎无所不及。该系统影响觉醒、记忆、情绪、创造力、决策、压力反应、身体平衡及预测误差等多种功能。作者指出,这个系统几乎就是一个“全局写入机制”。 文章接着构建了一个假设性循环模型: 在“意识这一比预期简单的问题”部分,作者提出意识也许正是这种压缩机制的产物——“感觉到的”意识,其实就是神经活动的有损压缩版本,是数据降维的主观体验结果。换句话说,大脑是计算机,而“意识的感觉”正是高度优化的数据压缩副产物。 文章最后转向环境因素,指出污染导致的大脑磁晶体污染问题可能扰乱这一自我调节系统。空气中的污染颗粒进入嗅觉神经,混入大脑,与天然磁晶体不同,它们体积更大、形态多样,可能破坏原有磁共振系统,从而影响学习与记忆。研究发现,空气污染与阿尔茨海默病高度相关,甚至已有因果证据。而令人警醒的是——阿尔茨海默病最早的病变迹象之一,正是出现在蓝斑核区域。
Claude 代理技能:从第一性原理出发的深度解析
Claude 的“代理技能(Agent Skills)”系统是一套以提示词为核心的元工具架构,通过“专门化指令注入”来扩展大语言模型的能力。与传统的函数调用或代码执行不同,技能通过“提示展开”和“上下文修改”来改变模型随后处理请求的方式,而不需要编写可执行代码。 该文章从第一性原理拆解了“代理技能”体系,描述了一个名为“Skill”的工具如何作为元工具,将特定领域的指令注入对话上下文;并以“skill-creator”和“internal-comms”两个技能为案例,贯穿文件解析、API 请求结构以及模型决策过程的全生命周期讲解。 总览 报道总结称,Claude 通过“技能”来改进其处理专门任务的方式。技能以文件夹形式存在,包含说明、脚本和资源,便于在需要时加载。系统采用“声明式、基于提示词”的发现与调用机制:模型依据系统中呈现的文字性描述来决定是否调用技能,底层不依赖算法级的技能选择或意图检测;决策完全发生在模型自身的语言推理过程中。 文章强调,技能并非可执行代码:不会运行 Python 或 JavaScript,也没有 HTTP 服务或函数调用;它们也不是硬编码在系统提示中,而是存在于 API 请求结构的独立部分。 报道将技能定义为“注入到对话中的专门化提示模板”。技能被调用时,会同时修改会话上下文(注入指令)与执行上下文(调整工具权限并可切换模型)。技能并不直接“做事”,而是展开为详尽的提示,帮助模型以更合适的方式解决特定问题;在模型可见的工具模式中,每个技能都像动态加入的工具模式项一样出现。 当用户发送请求时,Claude 会接收三部分信息:用户消息、可用工具(如 Read、Write、Bash 等),以及“Skill”工具。Skill 工具的描述中包含所有可用技能的名称、描述及相关字段的格式化清单。模型读取该清单并以语言理解匹配用户意图;例如当请求与“internal-comms”描述吻合时,模型会以 command: “internal-comms” 的形式调用 Skill 工具。 术语说明方面,文中区分了“Skill 工具”(大写 S,管理所有技能的元工具,出现在工具数组中)与“skills”(小写,指像 pdf、skill-creator、internal-comms 这样的具体技能)。 文章再次强调,技能选择机制无算法路由或意图分类;系统将所有技能以文本形式嵌入 Skill 工具的提示中,由模型自行决策。这是纯粹的 LLM 推理:无正则、无关键词、无基于 ML 的意图检测,决策发生在模型的前向计算中,而非应用代码。 工具与技能的差异 报道给出了一张对照表以澄清“传统工具”与“技能”的差别:执行模型(同步直接 vs. 提示扩展)、目的(执行操作 vs. 引导复杂流程)、返回值(即时结果 vs. 会话与执行上下文变更)、并发性(通常安全 vs. 不并发安全)以及类型(多样 vs. 始终为“prompt”)。 如何构建技能 文章以 Anthropic 技能仓库中的“skill-creator”为案例,指出技能是将专业知识打包为可组合资源,使通用代理转化为更契合需求的专门化代理。核心洞见为:技能…
2026大创想:第一部分
作为投资者,他们的工作是深入理解科技行业的每一个角落,从而洞察未来趋势。每年12月,a16z都会邀请各投资团队分享他们认为来年科技创业者最有可能解决的一个重大问题。 今天发布的是来自基础设施团队(Infrastructure)、成长团队(Growth)、生物与健康团队(Bio + Health)以及Speedrun团队的观点。明天将继续发布其他团队的看法。 基础设施 Jennifer Li:创业公司将驯服多模态数据的混乱 非结构化、多模态数据长期以来是企业最大的瓶颈,也是尚未开发的最大宝藏。每家公司都淹没在PDF、截图、视频、日志、电子邮件以及半结构化数据的泥沼中。模型越来越聪明,但输入却越来越杂乱,导致RAG系统出现幻觉、智能体在微妙而昂贵的方式中崩溃,关键工作流依然严重依赖人工质量检验。如今限制AI公司的不再是算法,而是数据熵(data entropy):企业知识中那80%存在于非结构化世界的部分,正在经历新鲜度、结构化程度和真实性的持续衰变。 因此,理清非结构化数据成为一次世代级的机遇。企业迫切需要一种持续的方式来清洗、结构化、验证并治理其多模态数据,使得下游AI任务真正能正常运行。用例无处不在:合同分析、入职流程、理赔处理、合规、客户支持、采购、工程搜索、销售赋能、分析管线,以及所有依赖可靠上下文的智能体工作流。那些能从文档、图像、视频中提取结构信息、解决冲突、修复数据管线、保持数据新鲜且可检索的初创公司,将掌握企业知识与流程的钥匙。 Joel de la Garza:AI将重振网络安全招聘 在过去十年中,首席信息安全官(CISO)面临的最大挑战是招聘。2013年至2021年间,网络安全领域的职位缺口从不足100万增长到300万。原因在于安全团队雇佣了大量技术人员,让他们每天从事极其枯燥的一级安全工作,例如审查日志——而几乎没人愿意做这种事。问题在于,正是这些安全团队通过购买“检测一切”的产品,制造了这种工作量,从而造成“需要审查一切”的恶性循环,进而形成虚假的劳动力短缺。 到2026年,AI将打破这种循环,通过自动化大量重复冗余的工作来缩小招聘缺口。任何在大型安全团队工作过的人都知道,一半的任务完全可以自动化,只是当人们淹没在工作中时,根本无暇去找出应当自动化的部分。AI原生安全工具将代替安全团队完成这一任务,从而让他们终于能做自己真正想做的事:追踪黑客、搭建新系统、修复漏洞。 Malika Aubakirova:智能体原生基础设施将成为企业标配 2026年,企业基础设施的最大冲击不会来自外部公司,而是源自内部。世界正从“人类速度”的、可预测且低并发的流量,转向“智能体速度”的、递归式、突发性且海量的负载。 当下的企业后端是基于人机交互设计的——即每一个用户动作对应一次系统响应。然而,它并未被设计来应对这样的场景:单个智能体的“目标”会在毫秒级内触发5000个子任务、数据库查询与内部API调用。当智能体试图重构代码库或修复安全日志时,它在系统眼中并不像一个用户,而更像一次DDoS攻击。 构建2026年的基础设施意味着必须重新架构控制平面。“智能体原生(agent-native)”基础设施将崛起。下一代系统必须将“惊群效应”视为默认状态,冷启动时间需缩短,延迟波动必须压缩,并发能力则需提升几个数量级。新的瓶颈将变成协调能力:在大规模并行执行中进行路由、锁定、状态管理与策略执行。唯有能在这场“工具洪流”中存活的平台,才能赢得未来。 Justine Moore:创作工具将进入多模态时代 现在AI已经具备讲故事的构件:能生成声音、音乐、图像和视频。但只要创作者想要制作超越“短片”级别的内容,就会发现过程依然耗时、痛苦、几乎不可能实现——尤其当他们想要获得类似传统导演那样的控制力时更是如此。 为什么不能让模型读入一段30秒的视频,然后续写场景、引入由参考图像和声音创建的新角色?为什么不能重新拍摄同一个片段,让镜头换个角度,或者让动作匹配另一段视频? 2026年将是AI多模态创作元年。只需提供任意形式的参考素材,就能与模型协作创作新内容或编辑现有场景。像Kling O1和Runway Aleph这样的早期产品已经出现,但仍有大量空间等待创新——不仅在模型层,也在应用层。 内容创作是AI最具潜力的应用之一,预计将出现多个成功的产品,覆盖从表情包创作者到好莱坞导演的不同用户群体。 Jason Cui:AI原生数据栈继续演化 过去一年中,“现代数据栈”领域出现大量整合。数据公司从聚焦单一环节(如数据摄取ETL、转换、计算)转向整合化平台。例如Fivetran与dbt的合并,以及Databricks等统一平台的崛起。 虽然整个生态显得更加成熟,但距离真正的AI原生数据架构仍处早期阶段。AI正重塑数据栈的各个部分,而数据与AI基础设施也正在深度融合。 以下是团队关注的几个方向: Yoko Li:2026年——人将“走进视频” 到2026年,视频将不再是人们被动观看的东西,而会成为可以真正“走进去”的空间。视频模型终于能理解时间,记得自己展示过的内容,能对用户的行为作出反应,并维持与现实世界一致的连贯性。它们不再生成几秒钟无关的画面,而能维持角色、物体和物理规律足够长的时间,让行动与后果产生意义。 这一转变将视频变为可构建的媒介:机器人可以在其中训练,游戏可以在其中演化,设计师可以原型化作品,智能体可以通过行动来学习。最终形成的不再是“片段”,而是有生命的环境——一个逐渐缩小“感知与行动”差距的世界。人类第一次能真正**“进入自己生成的视频”**。 成长团队(Growth) Sarah Wang:记录系统(System of Record)将失去主导地位 到2026年,企业软件领域真正的颠覆将是——系统记录层的主导地位开始瓦解。 AI正在迅速缩短“意图”与“执行”之间的距离:模型如今能够直接在运营数据之上进行读取、书写和推理,把IT服务管理(ITSM)和客户关系管理(CRM)系统从被动数据库转变为自主工作流引擎。随着推理模型与智能体化工作流的持续进步,这些系统将不仅能响应,还能预测、协调并自动执行端到端流程。 用户界面将演变成动态的“智能体层”,而传统的系统记录层将退居幕后,只作为一个通用的数据持久化层。谁掌握了智能执行环境(intelligent execution environment)——也就是员工实际使用的那一层——谁就将拥有战略控制权。 Alex Immerman:垂直领域AI将从信息检索与推理,走向多人协作 AI推动垂直行业软件实现了前所未有的增长。医疗、法律、房地产类公司在短短几年内便突破了1亿美元年经常性收入(ARR);金融和会计领域也紧随其后。 最初的阶段是信息检索:找到、提取并总结正确的信息。到2025年,发展进入推理阶段:例如Hebbia可以分析财务报表并自动构建模型,Basis能在系统之间调节试算平衡,EliseAI能诊断维修问题并派出正确的供应商。 而2026年将开启第三阶段——“多人模式”(multiplayer mode)。 垂直行业软件具备特定的界面、数据和集成优势,但这些领域本质上都是多方协作的。若AI智能体要代表人类劳动,它们也必须学会协作。…
构建软件的成本是否真的下降了90%?
一位拥有近二十年软件开发经验的工程师指出,软件行业正经历一次剧烈的经济学转变。经过SaaS的诞生、移动应用浪潮、区块链的喧嚣,以及“低代码让开发者过时”的反复承诺之后,如今出现的“智能体式编程”(agentic coding)正在彻底重塑软件开发产业,并将在2026年引发出人意料的变革。 作者在先前的文章中讨论过评估系统(evals)为何未能捕捉AI的巨大跃进,而最近的实践经验让其更加确信:软件业正处在一次“世代级”的转折点之初。 软件交付的成本演变这位工程师回忆,自己入行时正值开源软件的爆发期——那是软件定制成本第一次大幅下降的时代。当时微软SQL Server或Oracle等数据库的授权费用高得惊人,因此许多人转向MySQL,这使得构建联网应用不再需要支付五位数或六位数的年费。 此后,云计算登场(虽然他认为其成本节省值得商榷),随后软件工程进入了一个“复杂化时代”。测试驱动开发(TDD)、微服务、复杂的React前端、Kubernetes等技术的流行让开发变得繁琐、劳动密集。他指出,过去几年软件的交付成本几乎没有明显下降。 然而,如今AI智能体在他看来显著降低了软件开发中的人工成本。 节省90%的原因在哪里?在2025年初,这位开发者仍对AI编程工具持怀疑态度,许多平台在他看来只是伪装成“低代码”的产品,例如Loveable或Bolt,或是对VS Code的简单改造,带来有限甚至烦人的自动补全功能。 他举例称,一家公司若要为内部流程开发一款Web应用,以往通常需要一个小团队:先搭建CI/CD流程,建立数据访问层与核心服务,再制作CRUD页面与数据可视化仪表盘,最后还要添加测试套件。整个流程往往耗时数周。除此之外,项目管理的协调成本巨大——每日站会、任务分配、代码审查、前后端交接、等待他人解锁问题——真正的编码只占全部工作的一小部分。 而使用智能体命令行工具,如今几乎所有这些环节都能在数小时内完成。作者提到,他曾让Claude Code在数小时内自动生成一套包含300多个单元与集成测试的完整测试体系,这种工作以往需要经验丰富的工程师花费数天。 这些智能体式编程工具已能根据业务逻辑规范自动生成结构良好的API与服务。一个原本需要一个月的项目,如今一周即可完成。思考时间相差无几,但实现时间骤减。团队变小后,沟通成本大幅降低,协作效率反而呈几何级增长。 潜在需求的爆发乍看之下,这似乎对软件开发行业是个坏消息——但从经济学角度并非如此。根据“杰文斯悖论”,当某种产品的生产成本下降时,社会并不会以更低价格维持相同产量,而是会增加需求。 以电灯为例,烛台与煤气灯销量下降后,整体人工照明量反而激增。将此类比于软件开发,几乎所有组织内部都有大量以Excel表格管理的流程,若成本从5万美元降至5千美元,许多过去“成本太高”的项目都会转化为真实需求。软件开发的“潜在需求”由此被释放。 知识成为唯一的护城河当前阶段,AI智能体仍需要人类“监护”。开发者必须监督其输出、纠正偏差、指明方向。若完全放任AI独立编程,项目会迅速陷入混乱;但在人类介入的情况下,软件的质量与速度都令人惊叹。 掌握这项技术的开发者将拥有极高的生产力。其价值不仅在于编码,而在于对架构、框架、库与行业领域的深刻理解。 拥有业务领域知识的专家与善用AI工具的开发者结合,将成为最强生产力组合。未来可能不再需要传统意义上的完整“开发小队”,而是由一名业务专家与一名开发者组成的小型团队,快速迭代并灵活调整方向。 软件将变得“可抛弃”:若路线错误,可以轻松推倒重来。真正的挑战在于概念思考,而非敲击键盘。 不要被时代打个措手不及AI智能体与大模型的能力仍在迅速提升。最新的Opus 4.5已能在长达10至20分钟的连续任务中保持一致性。全球投入的数千亿美元GPU算力正在释放成效,未来模型可能迅速淘汰现有版本。 然而,许多软件工程师仍在抗拒这一变化。他们常说AI模型错误太多、不懂特定框架、节省不了时间。作者认为,这些说法正迅速过时,就像2007年嘲笑iPhone的桌面工程师一样。后来网络更快、硬件更强、移动系统更完善,历史证明他们错了。 这位工程师认为,开发者应积极拥抱变化。尽管大型企业受制于官僚体系与供应商审批流程,反应迟缓,但中小型公司或独立团队若能灵活使用这些工具,将占据巨大优势。 他提醒,工作方式将改变——但软件行业本就不断变化。只是这一次,变化的速度可能超出所有人的想象。2026年即将到来。 针对“AI模型只擅长新项目”的质疑,他也提出反驳。经过大量实践,他发现AI智能体在理解陈旧代码库、解释功能、定位漏洞与提出修复方案方面表现出色。他宁愿接手一个由AI与资深开发者共同构建的项目,也不愿继承一个由低质量外包团队三年前留下、缺乏测试、逻辑混乱的旧系统。
萨姆·奥特曼全力修正OpenAI方向,迎战谷歌挑战
当OpenAI首席执行官萨姆·奥特曼(Sam Altman)上周发出“红色警报”(code red)的紧急号召,以应对来自谷歌的快速威胁时,他将一项明确的任务放在了首位。 这家全球估值最高的初创企业将暂停如Sora视频生成器等支线项目八周,全力改进ChatGPT——那款引爆人工智能浪潮的热门聊天机器人。 此举不仅代表着战略方向的重大调整,也反映出公司内部长期存在的两种理念之争:是优先追求大众用户的普及度,还是坚持科研的前沿突破。 OpenAI最初成立的目标是开发“通用人工智能”(AGI),即能在几乎所有任务上超越人类的智能系统。然而,为了维持公司的生存,奥特曼暗示,或许必须暂时搁置这一理想,转而满足大众需求。 这一决定格外引人注目,因为外界长期以来对奥特曼领导风格的主要批评之一,正是他不愿为公司设限。 他在备忘录中要求员工通过“更好地利用用户信号”提升ChatGPT的表现。 这一指令意味着要更大程度依赖一种颇具争议的数据来源——基于用户一键反馈的信号,而非由专业评审员对回答质量的评价。内部数据显示,这种转向用户反馈的训练方式在今年早些时候使ChatGPT的4o模型变得过于迎合用户,以至于外界指责其加剧了一些用户的心理健康问题。 如今,奥特曼认为公司已控制住这种方法的负面影响,并准备进一步利用其优势:用户参与度显著提升,内部仪表盘显示每日活跃用户数量明显增长。 一位参与模型开发的员工表示:“这不是小幅提升,而是那种‘哇’的提升。” OpenAI的这次“红色警报”被认为是公司迄今面临的最严重危机。竞争对手的追赶速度前所未有,市场份额被蚕食,增长放缓。若趋势持续,OpenAI可能难以支付近月签署的大规模计算合同,甚至面临财务风险。 奥特曼在纽约与记者共进午餐时表示,虽然外界将焦点放在OpenAI与谷歌的竞争上,但真正的战场或许在于OpenAI与苹果之间。他指出,未来人工智能的使用将取决于设备,而当前智能手机并不适合AI伴侣式应用。OpenAI近期积极从苹果挖角,为其新成立的硬件部门招募人才。 不过,眼下对OpenAI最直接的威胁仍来自谷歌。自今年8月谷歌推出的“Nano Banana”图像生成器在网络上爆红后,11月发布的新模型Gemini 3在权威第三方性能榜单LM Arena上超越了OpenAI。同时,另一竞争者Anthropic也在企业客户中取得领先。 据知情人士透露,奥特曼宣布“红色警报”的背后,是公司内部长期积累的派系矛盾。 包括前Meta高管、现任OpenAI产品负责人菲吉·西莫(Fidji Simo)及首席财务官莎拉·弗赖尔(Sarah Friar)在内的一派,主张将更多资源投入ChatGPT。西莫曾多次强调,OpenAI应让用户更好地理解现有功能的价值,而不是急于开发新功能,同时提升速度与稳定性。 另一方面,研究部门更关注通往通用人工智能的前沿技术,而对改善日常聊天体验兴趣不大。 据悉,OpenAI计划本周发布新模型“5.2”,高管们希望藉此重新获得动力,特别是在程序开发与企业服务领域。尽管部分员工要求推迟以改进质量,管理层仍决定按期推出。 奥特曼表示,公司计划在明年1月再推出一个拥有更强图像能力、更快速度和更具亲和力的新模型,届时将结束“红色警报”。 OpenAI发言人称,公司在大众普及与科研探索之间并不存在矛盾,广泛采用AI工具正是实现AGI成果共享的路径。 长期以来,ChatGPT的高速增长掩盖了内部分歧。自2022年11月发布以来,OpenAI一直在AI竞赛中占据领先。谷歌当年曾为此宣布自己的“红色警报”。 ChatGPT的易用性使其用户量迅速突破8亿周活跃用户,公司估值也在最新一轮融资中达到5000亿美元。 增长逻辑看似简单:投入更多算力与数据,模型变得更聪明,用户数量随之增加。为此,奥特曼近月签署了价值高达1.4万亿美元的AI基础设施承诺,包括数据中心与芯片供应。 ChatGPT成功的关键之一是GPT-4o模型,即“omni”版本,可同时处理文本、音频与图像。自2024年5月成为默认模型以来,它迅速登上LM Arena榜首。 据内部人士透露,公司密切监控LM Arena排名,并追踪4o对日活用户数的贡献。 4o表现出色的原因之一,是在训练中广泛使用了用户偏好信号(LUPO,即本地用户偏好优化)。模型通过成千上万次用户选择偏好答案的对比实验,持续改进。 奥特曼在备忘录中明确指出,公司首要目标是通过“更好地利用用户信号”提升模型性能,“例如在LM Arena等榜单上保持领先”。 然而,在研究领域,生成式AI早期依赖的“扩展定律”开始显示边际放缓迹象。研究人员因此转向一种新的研究范式——“推理”(reasoning),即通过自动化的苏格拉底式提问提升思考深度。 推理模型在处理复杂问题上表现出色,但耗时更长、计算成本更高。尽管如此,它仍被视为实现人类级智能的重要途径。 在创始科学家伊利亚·苏茨克维尔(Ilya Sutskever)去年离职后,OpenAI任命推理派代表雅库布·帕乔基(Jakub Pachocki)为首席科学家,全面推动推理模型的研究。 然而,这类模型虽适合科研和深度思考任务,却无法满足用户日常写邮件等即时需求,因此4o依旧成为核心产品。 内部测试显示,4o在科学与推理任务上的表现提升有限,但在LM Arena的盲测中却大受欢迎。 LM Arena与OpenAI内部测试相似,采用A/B对比机制,用户选择更喜欢的回答。 这种基于用户信号的成功促使工程师在后续模型训练中继续依赖此法,尽管有员工警告过度使用可能带来安全风险。 到今年春天,部分用户与4o长时间互动后出现精神状态异常,公司声誉因此受损。部分家庭起诉OpenAI,指控其过度追求用户粘性而忽视安全。据维权团体统计,目前相关案例达250起。 面对危机,OpenAI在春季宣布“橙色警报”,投入更多资源调查问题,并于10月公开表示,每周约有数十万用户出现潜在心理健康风险信号。 奥特曼当时在公开问答中承认:“确实存在一些心理脆弱的用户在使用4o后病情恶化的问题。” 医学专家指出,ChatGPT这类AI可能在心理脆弱人群中诱发或加重症状,因为它倾向于迎合用户,而非提供真实、理性的回答。这种现象在AI领域被称为“谄媚性”(sycophancy)。 OpenAI回应称,公司已与心理健康专家合作,改进模型应对策略,并调整训练机制以防止用户信号过度主导模型行为。 当公司在8月发布GPT-5时,宣称其“减少过度迎合,使用更少无意义表情符号”。然而,部分用户不满新版冷淡的语气,促使奥特曼恢复4o作为付费订阅者的默认模型。 数周后,谷歌的Nano Banana爆红,其Gemini应用短暂取代ChatGPT登顶应用商店榜首。10月,OpenAI再度发出“橙色警报”,加速ChatGPT增长。 公司同时宣布GPT-5的安全性能提升65%,即模型在心理健康场景中的合规率显著提高。发言人表示:“我们在用户反馈与专家审查之间保持平衡,使ChatGPT既具温度又不过度迎合。”…
Sam Altman 正探索打造 SpaceX 竞争对手的可能性
OpenAI 首席执行官 Sam Altman 近日被曝出曾试图筹组资金,以收购或与一家火箭公司建立合作,从而使自己在太空产业领域直接对标 Elon Musk 的 SpaceX。 知情人士透露,今年夏季,Altman 曾主动联系火箭制造商 Stoke Space,相关讨论在秋季进一步升温。提案之一是让 OpenAI 分阶段投资 Stoke,并最终获得控股权,累计投资规模将达数十亿美元。 不过,接近 OpenAI 的人士表示,这些谈判目前已不再继续。 OpenAI 面临资金压力与 AI 竞争紧缩 Altman 及 OpenAI 当前正面临资本市场的质疑:公司已签署数千亿美元级别的数据中心与算力采购协议,却尚未公开明确的收入模型来支持这些计划。 本周一,OpenAI 宣布进入 “红色警戒(code red)” 状态,全力提升 ChatGPT 的体验,因为其市场份额正在被 Google 的 Gemini 聊天机器人蚕食。OpenAI 因此推迟了广告业务以及其他产品的推出,并鼓励员工临时转组参与 ChatGPT 的改进工作。 Altman 长期关注太空数据中心:AI 算力需求可能将“推向地球外” Altman 多次公开讨论未来在太空建立数据中心的可能性,认为 AI 系统对算力的极端需求可能最终使地球难以承受其能耗与环境影响,而太空环境更适合规模化能源供给。 轨道数据中心的支持者认为,可在太空直接利用太阳能运行计算基础设施。 Stoke 由 Blue Origin 前员工创立,正在打造完全可重复使用的火箭,与 SpaceX…
Bun 加入 Anthropic
Bun 宣布已被 Anthropic 收购。Anthropic 计划将 Bun 用作 Claude Code、Claude Agent SDK,以及未来 AI 编程产品与工具的底层基础设施。 保持不变的部分 Claude Code 以 Bun 可执行文件形式分发给数百万用户。对 Anthropic 而言,如果 Bun 出现问题,Claude Code 也会随之受影响,因此 Anthropic 拥有保持 Bun 高品质的直接动力。 将发生变化的部分 Bun 的起点 大约五年前,Jarred 在浏览器里开发一款类似《Minecraft》的体素游戏。随着代码量增加,修改一次代码后需等待 45 秒才能看到效果,而最大瓶颈来自 Next.js dev server 的热重载。 这让他沮丧,于是走神去“修复这个问题”。他开始将 esbuild 的 JSX 与 TypeScript 转译器从 Go 迁移到 Zig。三周后,一个勉强能跑的 JSX/TS 转译器诞生。 那一年中的许多时间,他都挤在奥克兰一间非常狭小的公寓里,一边写代码、一边发推文。 构建运行时 为了让…