没有任何专家能够逃脱“专业能力对数式增长”的曲线。无论是星舰企业号的工程官乔迪·拉福吉少校(前景),还是莉亚·布拉姆斯博士(中景),当然也包括舰载计算机本身(背景)。图片来源:screenrant,wikipedia(本文最初是在 LinkedIn 风格的平台上随手写成的,下面版本略作修订,以便更好地“掌控所有权”和保持理智。) 一切专业能力都是对数增长的,而不是指数增长 星舰企业号的工程官——乔迪·拉福吉少校——几乎就是“使用生成式 AI 的工程师与高管”的原型人物。他时时刻刻都在使用那台由反物质驱动的舰载 LLM,甚至经常在生死攸关的时刻,用它来解决全新、一次性的复杂问题。 但他之所以能如此成功地使用这些系统,并不是因为 LLM 本身多么强大,而是因为他能够识别极其细微的错误,并用自己顶级的训练背景和多年一线实战经验进行补偿与增强。 换句话说,他拥有通过长期磨炼获得的高度专业化的隐性知识(tacit knowledge),而这种知识是任何静态数据语料库——无论多么庞大、详尽——都不可能具备的。品味、判断力和直觉不是天生的,而是后天培养出来的:通过系统训练、刻意练习,以及与现实世界的频繁、剧烈碰撞。是的,是频繁而暴力的现实碰撞。 然而,不论是人类还是计算机,其专业能力的增长都遵循对数曲线:最初进步飞快,持续一小段时间;随后进步放缓但仍可感知;最终,增长几乎变得不可察觉——再多的投入,也难以带来有意义的产出。 换句话说: 专家系统,需要专家用户。 我将这一现象称为:乔迪·拉福吉悖论(The Geordi LaForge Paradox)。 语言模型越大、越复杂,用户自身的世界模型就必须越成熟。只有受过严格训练的放射科医生,才有能力去审视计算机模型给出的影像分类结果。也只有乔迪,才能同时挑战舰载计算机与布拉姆斯博士那种高度专业、深度信息化的判断——因为只有他,是通过唯一可行的方式学会那些真正困难的东西的:那条漫长而艰辛的道路。 而这一科学事实,具有深远的影响。 关于“2030 年及以后”的故事,其实正在当下发生 只是,人们并没有在正确的地方寻找那串“丢失的钥匙”。他们只盯着那根炽热的路灯柱——也就是由核电驱动的、抽象化的大型 LLM 机器。像飞蛾扑火一样,被自己制造出来的引力井所困:既包括情绪与心理注意力上的沉没成本,也包括现实世界中的实际投入。 我对 LLM 技术的乐观判断是: 到大约 2030 年左右,我们将从 Transformer 架构、规模化与压缩中,获得一些并非微不足道的直接收益,例如: 然而,真正巨大的收益将来自间接效应:当 GPU 投资开始“变形”为服务于当今严重被忽视、却足以重塑世界的科学与工业应用领域时。 可以想象这样一个场景:“校园级 GPU 超级计算机,便宜到几乎可以忽略计量成本。” 巨量 GPU 基础设施 → 工业应用的嬗变 我真诚地希望,我们能看到类似历史上铁路、电信或云计算繁荣之后发生的那种局面: 巨额资本投入,通过资产减记、贱卖、破产式并购等方式,重新分配基础设施所有权,从而催生完全出乎意料的工业、经济乃至社会政治现象。 或许(我希望如此),我们会看到数据中心的去中介化:整柜整柜的计算设备被运往私营企业、大学等地方——后院里堆着超级计算机。 一个全新的“Oxide Computer Company”式企业生态,随之诞生。 突破性科学与工业工程,需要“周期时间”的压缩 如果真的进入一个“GPU 便宜到不计成本”的阶段——假设持续十年,直到…
Author: aitrendtrackers@rengongzhineng.io
2026年的软件工程会怎样呢?
在假期期间,我一直在思考:2025年AI编程工具的进展,将会在2026年如何影响软件的设计、构建与运行方式。 到目前为止,大语言模型(LLM)工具带来的最主要影响,是高质量代码的边际生产成本——无论是时间成本还是金钱成本——都显著下降了。当然,写代码只是软件工程整体工作的一部分,因此工程时间的瓶颈会自然转移到其他环节。 那么,作为软件工程师,我们到底在做什么?给出一个模糊但或许有点用的定义:构建、演进并运营分布式软件系统,从而提供明确的商业价值。在这三点中,“构建”随着LLM的出现明显变得更便宜,“演进”系统也变得更容易;而从我目前的观察来看,“运营”系统受到LLM影响最小。 至于“商业价值”,它会因公司不同、工程组织不同而变化。一个最明显的区分是基础设施团队与产品团队。我预计产品团队会从LLM编程中获得更大的提升——LLM似乎对前端理解得尤其好,而且产品团队往往有更多从零开始(greenfield)的工作,而基础设施则较少。 市场将会期待软件工程师能够真正从LLM中榨取生产力红利。整体来看,这个行业正走向更高度的机械化,但也因此变得更高效。再技能化(reskilling)与思维方式的转变已经加速了几个月,但其大多数影响仍尚未完全显现。 以下是我预计在2026年会进一步加速的一些变化: 基础设施抽象良好的基础设施抽象,其回报会以更快的速度复利增长。你是否能快速发布二进制文件,并同样快速地回滚?你是否拥有开箱即用的方式,能够迅速为所服务的功能启动新的计算资源或后端? 所有核心基础设施组件仍然至关重要:指标、日志、事故管理、功能开关、发布系统、自动扩缩容、编排、工作流引擎、配置、缓存、网络等等。企业若能让这些核心基础设施既易于人类使用,也易于LLM使用,将会获得巨大收益。基础设施应尽可能做到自助化,提供友好的CLI或支持MCP的API,并尽量减少必须由基础设施工程师亲自介入才能解锁进展的情况,无论面对的是人类还是AI。 CI基础设施随着AI代理编写的代码越来越多,CI基础设施的质量、保真度与速度将变得更加重要。我们或许需要重新思考“单元测试”本身,在技术栈的底层更多投入诸如性质测试(property testing)和形式化验证等方法。 人类通常不喜欢写测试——它们不好玩、机械,而且常常让人觉得是在为本可以用来写炫酷实现代码的精力缴税。但LLM对此毫无心理负担。我们已经没有任何借口不去实现几乎穷尽的测试场景覆盖。 人类引导的抽象清晰、由人类引导的抽象将变得愈发重要。如果没有强有力的指导原则,LLM往往会用贪婪、填空式的方式生成代码,只要能通过CI检查就好,长期来看会不断制造“意大利面式”的代码结构。前期仍然需要良好的直觉与成熟的“系统品味”。模块边界、库接口、基础设施层与产品层之间的契约,这些都会成为维持长期代码质量的高杠杆因素。缺乏清晰边界的系统,将会更快地积累技术债。 LLM生成的代码并不天然等同于高质量代码。尽管过去一年中质量提升显著,但只需几个构造不佳的PR,就依然可能让团队迅速淹没在技术债之中。 人工代码评审人工代码评审将越来越成为一个重要瓶颈,并且需要形成一种新的“评审品味”。在可能的情况下,样式层面的争议应尽量下沉到自动化lint中,在合并前运行,理想情况下甚至由LLM代理在提交前完成。人工评审应当重点关注那些之后无法轻易通过代码生成来弥补的决策:例如接口变更、涉及数据持久化的敏感代码、以及性能关键路径代码,这些仍然需要高度审慎的审查。 这也给初级工程师带来一个悖论:他们需要更早培养“评审品味”,但却在“写代码”这一传统上用于形成直觉的环节中参与得更少。 我们需要集体回答一些问题:哪些代码即便不完美,但在风格上是可以接受的?哪些代码是绝对不允许提交的?哪些是新的“滑坡式”坏味道?代码评审本身,又有多少是可以自动化的? 项目时间预期的方差上升我预计项目时间预估的方差会显著增大。一项任务在多大程度上可以被LLM化,将越来越直接地影响其实际耗时。这会对高价值项目产生压力,推动它们被设计成更适合LLM参与的形式,但这种调整往往并不可行。 最有价值、也最需要降低风险的项目,往往恰恰是最不适合LLM辅助的:它们需要深厚的上下文理解,涉及底层系统,或者具有极高的爆炸半径。 一些过去需要长期投入的任务现在变得容易得多(例如以代码为中心的迁移,或跨语言、跨系统的转换);而另一些任务的难度则相对稳定(例如网络相关工作)。 AI对“自建 vs 购买”决策的影响代码成本的下降,会在多大程度上影响SaaS领域的“自建还是购买”决策?我的猜测是:在边际上会有影响,但在结构性上影响有限。对于主要是CRUD加一层薄UI的商品化SaaS,中大型技术公司在具备成熟IT能力的情况下,决策会更多倾向于自建。 但对于基础设施即服务(IaaS)或合规即服务(compliance-as-a-service),决策逻辑不会发生太大变化,因为这些系统的运营成本并未像开发成本那样大幅下降。 一些尚待回答的问题:我们是否仍然需要对每一行代码进行人工审查?这件事到底有多关键?哪些系统需要“放大镜级”的审查,哪些真的可以完全靠“vibe coding”?软件工程师最好的“用更多信息对抗低质量输出(Add bits to beat slop)”方式是什么?当模型变得快100倍、便宜1000倍时,又会发生什么变化? 一个让我豁然开朗的想法是:在每一条服务日志上运行一个LLM将变得足够便宜。现在这听起来仍然有些荒谬或多余,但可以想象它在某些场景下会非常有用,比如辅助调试事故。我已经开始看到一些很有前景的演示:针对事故排查而设计的、自动化的LLM副驾驶工具。
阿尔茨海默症:从成因与风险因素到模型与干预
自从单克隆抗体在阿尔茨海默症(Alzheimer’s Disease, AD)治疗中效果令人失望以来,学界围绕其真正病因的讨论持续升温。许多人在问:“如果不是β-淀粉样蛋白,那是什么?”在癌症中,我们消灭癌细胞;在心血管疾病中,我们降低LDL颗粒,从而显著降低风险。那么,在阿尔茨海默症中,“LDL”对应的是什么? 作者认为——这个问题没有唯一答案。AD的成因是多因素的(multifactorial),没有单一机制能解释所有病例。每种因素都可能在不同个体中增加患病风险,但都不是决定性的。同时,预防AD与治疗AD应当分开思考: 作者目前在Retro Biosciences公司从事相关研究,但他对阿尔茨海默症的兴趣远早于此。过去在观察AD研究时,他发现其复杂性远超心血管疾病:在心血管病中,LDL升高导致动脉粥样硬化,降低LDL风险显著下降;而在AD中,去除β-淀粉样蛋白并没有同样效果。 一、关于“阿尔茨海默症”的定义 根据阿尔茨海默症协会(AA Workgroup, 2024)的定义:AD的出现以脑内β-淀粉样蛋白(amyloid-β)积聚为标志,此后出现tau蛋白缠结与神经退行性变化。若仅出现tau缠结而无β-淀粉样蛋白,则被归为“与年龄相关的原发性tau病变(PART)”或其他非AD类型。 因此,即使患者认知正常,只要脑中存在大量β-淀粉样蛋白,也会被定义为AD患者。该定义的目的不是“客观”,而是为了在研究与诊断上统一标准。尽管有人批评这是“淀粉样假说偏向”,但这种定义仍有实用意义,因为大多数认知退化病例确实伴随淀粉样沉积。 然而,当抗体疗法能够清除脑内淀粉样蛋白,却仍无法阻止神经退行时,这一定义就暴露出局限:疾病的根本机制显然仍在继续。 二、什么是“成因”? 作者提出几个常见的“因果”定义,并指出AD都无法完美符合: 因此,与其说AD有单一病因,不如说是多种失衡过程叠加的结果。在多数情况下,是β-淀粉样蛋白的产生与清除失衡,导致其积聚;而炎症反应又会抑制清除机制,使淀粉样越积越多。随着年龄增长,神经细胞对炎症信号更敏感、修复能力更差,最终形成一个“恶性平衡”:细胞持续死亡而缺乏修复。 三、主要风险因素 以下因素都可增加AD的发病几率(非决定性): 这些因素共同说明:AD不是由“单一病原体”引起的,而是炎症、遗传、病毒感染与衰老交织的产物。 四、病理模型与治疗启示 在许多病例中,病毒或慢性炎症会激活脑内免疫反应,引发β-淀粉样蛋白的生成——后者可能具有抗微生物功能(Gosztyla et al., 2018)。但炎症本身缺乏“精确控制”,随着年龄增长,这种反应会变得过度且持久。 更复杂的是,这种炎症“记忆”可能写入细胞的染色质结构,使细胞即便在刺激消退后仍保持高炎症水平。这解释了为何动物模型疗效良好而人体试验失败——在老年人中,炎症与代谢退化已根深蒂固,单纯清除淀粉样或病毒并不能逆转病程。 因此,Retro Biosciences等团队转向新的策略: 这些方法与过去“清除单一病理物质”的思路不同。过去数十年,研究几乎被“β-淀粉样+tau”药物所主导(Cummings et al., 2024),而现在制药业开始探索炎症调节、细胞复活、代谢重建等多维方向。 五、总结与展望 从遗传学、流行病学与干预研究的综合证据看,AD并无单一“成因”。在疾病尚未发生时,控制风险因素(感染、炎症、创伤等)是可行的预防手段;但一旦疾病启动,再去修改这些外部风险因素的收益极小。 作者在推文中写道:“阿尔茨海默症没有原因(Alzheimer’s has no cause)。”真正的意义是:我们应放弃寻找单一罪魁祸首的执念,转而理解疾病的动态机制——包括细胞老化、自噬衰退、慢性炎症与代谢失衡——并从这些过程入手设计治疗方案。 未来真正有效的疗法,或许不会是“清除β-淀粉样”或“抑制tau”,而是让神经系统重新获得年轻状态与稳态。唯有如此,阿尔茨海默症的治愈才可能成为现实。
未来的“记忆战争”:为什么Karpathy、马斯克和Jim Fan所描绘的未来,取决于16层堆叠HBM
“周末属于哲学。”——@ramahluwaliaRam说得对。让我们暂时离开芯片规格表,从更宏观的角度看看我们到底正在见证什么。 本周,Andrej Karpathy发了一条推文,让我震惊: “我从未觉得自己在编程领域如此落后。这个职业正在被彻底重构,程序员能贡献的部分越来越稀疏、零碎。如果我能正确地把现有工具串联起来,我的效率至少能提高10倍。” 这可是Karpathy——打造特斯拉自动驾驶系统的人,仅两个月前他还在Dwarkesh的播客上对现有模型持怀疑态度。如今他却说自己“跟不上了”。发生了什么变化?推理层的能力突破了关键门槛——而且还将迎来更大的飞跃。 同一周,《电子时报》爆料:英伟达(NVIDIA)已向三星、SK海力士、和美光下达16层堆叠HBM的交付订单,计划在2026年第四季度投入量产。这不是研究阶段,而是真实的生产计划。 这两个信号其实是同一个故事的两面。16层HBM、3D堆叠SRAM、英伟达收购Groq的200亿美元授权交易——这些构成了让Karpathy“提升10倍威力”的基础设施。而这也揭示了:AI芯片之战,或许已经结束。 为什么AI正在“饥饿”——记忆的瓶颈 AI模型的增长速度远快于数据供给能力。例如,Llama 3(700亿参数)光是权重就需140GB内存;若使用128K上下文窗口,每个用户的KV缓存需要40GB。并发10个用户?光缓存就400GB。 当上下文扩展至100万tokens时(类似Gemini级模型),单个用户的KV缓存达到约312GB。服务100个用户意味着31TB内存需求。 GPT-4估计有1.76万亿参数,FP16格式需约3.5TB内存;到2028年,10万亿参数模型将至少需要5TB。 99%空转问题 AI推理的秘密是——价值4万美元的H100在解码阶段利用率不到1%。 原因在于算力与带宽的不匹配。H100拥有990 TFLOPS计算力和3.35 TB/s带宽,设计目标是295 FLOPs/字节。但推理解码时,每生成一个token都要从HBM中加载整个模型权重,只执行约2 FLOPs/字节,然后GPU就在等待内存。 训练阶段能达到百倍以上的算术强度,但推理阶段是串行的,核心单元大多在空转。这就是“记忆墙”——也是训练与推理在架构上必须分离的根本原因。 HBM vs SRAM:物理极限 两种存储的取舍如下:HBM(高带宽内存):容量大(80 GB → 192 GB → 1 TB 预计2027年)、延迟高(100–150 ns),适合训练与大模型权重。SRAM(片上静态存储):容量小(50 MB → 230 MB),但延迟极低(0.5–2 ns),适合低延迟推理。 问题在于:算力每两年提升约750倍,而内存带宽仅提升1.6倍。结果是,从V100到H100,计算与带宽比翻倍,使GPU在推理任务上越来越“力不从心”。 关键拼图 1️⃣ 16层HBM之战英伟达要求在JEDEC 775 μm封装高度内堆叠16层DRAM。这意味着晶圆要薄至30 μm,层间键合小于10 μm,热管理几乎没有工业先例。三星、SK海力士、美光正拼命攻关。胜者将在2028年前占据500亿美元年营收市场。 2️⃣ SRAM扩展的物理极限SRAM密度几乎停滞,N3E与N2制程提升有限。Groq的LPU通过230 MB SRAM实现80 TB/s内部带宽,在Llama 3.3 70B上每秒生成276 tokens(GPU仅60–100),但要容纳整个模型需576颗芯片、8个机柜。 3️⃣…
英伟达收购 Groq 最新进展:人人赚钱,专利战火即将燃起
英伟达以200亿美元收购Groq在这笔200亿美元的收购案中,所有人都得到了报酬:风险投资人、员工、创始人,整个股权表上的人都受益。85%的款项立即支付,剩余部分将在2026年底前结清。没有人被落下。 听起来是好消息,对吧? 不完全是。英伟达实际上买下的是一整套可以“武器化”的专利库,这些专利很可能会通过“NPE”(非专利实施实体)被用来对行业发起“焦土战”。英伟达借此得到保护,而其他公司可能将被专利诉讼缠身。 至于 GroqCloud?交易显示它现在已经变成一个只剩下10%员工、没有核心知识产权、没有技术领导的空壳公司,而250万名开发者正在困惑:现在到底是谁在运营这项服务? 让我们详细看看。 收购结构 这笔200亿美元的交易大致如下分配: Groq股东(包括风投、员工、创始人): 加入英伟达的Groq员工(约占90%,约550人): 暂停一下,90%的员工加入英伟达意味着什么?这大约是550人。这并不是外界猜测的“只挖几位关键工程师”,而是一次史无前例的大规模“人才收购”。对比来看:Instagram 13人被收购价10亿美元,WhatsApp 55人被收购价190亿美元。而英伟达此次以200亿美元买下550人,相当于人均3600万美元。英伟达绝对是认真的。 剩下10%留在GroqCloud的员工: Chamath的Social Capital预计可获约20亿美元(有传闻可能高达40亿美元)。好消息是——其他人也都赚钱,没有人被抛弃。 为什么是200亿美元?专利焦土战略 在上一篇文章中我提到过:英伟达得到的是Groq的团队、其在SRAM优先推理架构上商业化落地的经验,同时也消除了一个潜在威胁GPU主导地位的竞争者。 但我忽略了一个关键点:Groq的专利组合很可能被转移到NPE(非专利实施实体)手中。换句话说,这些专利会成为战略性专利诉讼的武器。 运作方式如下:GroqCloud 仍作为壳公司存在,持有专利。这些专利未来可能被出售或转移给某个专门从事专利诉讼的NPE。NPE 不生产产品,他们的业务就是——打官司。 想象一下:如果谷歌、亚马逊或其他公司尝试研发基于SRAM的推理芯片,NPE就会拿着Groq的专利起诉他们。目标公司只有两个选择: 而英伟达呢?他们已经获得非独占授权,可以自由使用,不受限制。换句话说,英伟达“被保护”,其他公司“被困住”。 这就是英伟达的“焦土战略”——在SRAM推理领域筑起一道专利壁垒。 GroqCloud作为独立公司并非重点,它只是副产物。剩下的10%员工只是为了维持客户合同运行,直到英伟达彻底整合技术与知识产权,并让专利组合成为竞争护城河。 GroqCloud 的困境 但问题来了。英伟达拿走了所有IP,90%的员工加入英伟达,那么GroqCloud还剩下什么? 让我们简单算算: 因此,留在GroqCloud的实体,没有IP、没有技术领导、没有研发团队——只有一位财务主管在掌舵。那他们到底还在干什么? GroqCloud的大客户 2025年2月,沙特阿拉伯承诺投资15亿美元扩建Groq在达曼的数据中心。Groq打造了该地区最大的推理集群,为“覆盖近40亿人口的中东及邻近地区”提供服务。 GroqCloud还在美国、加拿大、欧洲和中东运营13个设施。这些必须继续运行、履行合同、维持服务——这大概就是那10%员工的职责。 但没有IP、没有研发能力的他们,只能“维持现状”,无法创新。换句话说,他们不过是一个运营英伟达技术的托管服务公司。 至于那所谓“经济参与权”?参与什么?一个没有护城河、没有技术团队、没有知识产权的云服务公司?这部分股权的价值,最终只能由英伟达说了算——当GroqCloud被完全吸收或关闭时。 不止沙特 沙特的投资最引人注目,但GroqCloud的客户远不止此。截止收购前,公司已有250万开发者,2025年营收预计达5亿美元,并服务大量《财富》100强客户。 一些关键合作包括: 设想一下,你是这些客户之一——刚刚完成GroqCloud的系统集成,或正在基于LPU架构规划2026年的产品路线图。 突然得知: 当你提交支持工单,谁来答复?当你需要企业部署的新功能,谁来开发?当Llama API需要升级支持Llama 5时,谁来对接? 如果你是IBM,刚在10月签署了Groq合作,到了2026年第一季度该怎么办?如果你是那250万名GroqCloud开发者之一,会不会开始寻找替代方案? GroqCloud或许能继续运行现有服务,但它还能创新吗?还能竞争吗?当构建整个体系的团队都离开后,它还能跟上AI行业的迭代速度吗? 总结 所有人都拿到了钱 :D。实现与知识产权归英伟达 :/.GroqCloud 成为一个“僵尸公司”,继续服务现有客户——直到无法为止 :(.
知识工作中的杰文斯悖论
19世纪,英国经济学家威廉·斯坦利·杰文斯(William Stanley Jevons)发现,一个看似矛盾的现象:当技术进步提升了煤炭使用的效率时,煤炭的总体需求量反而上升了。按照常理,如果假设需求保持不变,提高效率理应减少煤炭的消耗。但现实恰恰相反——效率的提升反而带来了巨大增长,因为资源的使用场景被大大扩展了。这个“杰文斯悖论”在工业化进程中屡次被验证,尤其是在技术领域。 举例来说,早期的大型主机时代,全球仅有数百台主机,只有世界上最大的企业才能负担得起。而到了小型机时代(大型机的更小、更廉价版本),全球的设备数量达到了几万台。再后来进入个人电脑(PC)时代,出货量则达到了数百万台——在短短三十年间,每一代计算机的普及率都提高了约一百倍。 在20世纪70年代,只有财富500强企业才能使用强大的软件来处理会计工作。而到了2000年代,随着云计算的出现,全球每一家理发店都能使用类似的工具。这种转变同样发生在CRM系统、通信技术、营销自动化、文档管理软件等几乎所有企业软件领域中。大型企业曾经在采购、安装、维护、计算能力等方面的巨大优势,几乎在一夜之间因云计算而消失。 因此,计算技术的效率提升实现了确定性工作的自动化普及(通过软件实现),这一趋势在几十年间席卷了几乎所有行业。然而,绝大多数企业的工作其实是非确定性的——也就是说,它们涉及复杂的判断与创造,例如审阅合同、编写代码、生成广告创意、进行高级市场研究、提供全天候客户支持等成千上万种任务。 人工智能代理(AI Agents)的出现,将使这类非确定性知识工作的民主化成为可能,这将彻底改变商业的许多方面。如今,大型企业可以轻松地在不同项目间调配资源,敢于投入实验性想法,能够为新项目聘请顶尖的律师或市场专家,甚至可以快速雇佣工程师来构建新计划。而这种灵活性与资源优势,通常是经过数十年甚至上百年成功经营才能积累的。也正因为如此,全球绝大多数公司与创业者在起步之初就面临着极大的劣势。 但AI代理从根本上改变了这种局面。它显著降低了组织中几乎所有任务的投入成本。许多人在思考投资回报率(ROI)时,错误地将“R”(回报)视为关键变量,而真正的杠杆点在于降低“I”(投资)的成本。任何经历过预算规划的人都清楚,经营企业时资源永远是稀缺的。当你是一个小团队时,你必须在营销网页、产品功能开发、客户支持、财务处理、新渠道拓展等多种任务之间艰难取舍——每一项投入都会牵制增长的潜力。 而现在,AI正在打破这种核心约束——即“执行任务的成本”。有位网友Roon在X(前Twitter)上指出,如今任何普通人通过AI所能获得的教育与辅导资源,甚至超过了过去贵族阶层能得到的。而在商业领域,今天的每一家小公司都能获得相当于十年前财富500强企业的技术与人才资源。 由于进入门槛的降低,许多领域的工作需求将增长10倍甚至100倍。过去那些因为成本过高而从未尝试的项目,如今都能轻易启动。想象一家十人规模的服务公司,以前他们没有自建的专属软件系统。要从零开始开发一个完整应用、确保其长期运行、安全稳定并响应客户需求,至少需要多人长时间投入,因此项目根本不会被启动。而现在,团队中的某个成员可能只需几天就能用AI生成原型、验证其商业价值。这种场景几乎可以套用到任何类型的组织任务中。 当然,许多人会担心:在这个新世界里,所有的工作都会消失吗?事实并非如此。尽管AI让我们能自动化许多任务,但真正创造价值的完整工作流程仍然需要人类去统筹、监督与提供上下文。过去几年AI模型性能的提升,确实让AI输出的质量显著提高,但距离“完全自主、能完美执行并持续维护”的AI仍然相差甚远。 我们已经看到AI能够替代人类完成许多具体任务(如市场研究、功能代码编写、广告内容创作等),但要将这些任务整合进真正创造价值的完整流程,依然需要人的判断与努力。即使未来AI能执行更多完整的工作流程,人类也会对工作成果提出更高要求。最终,今天的“工作”将演变成明天的“任务”。 事实上,这种情况在历史上屡见不鲜。如果你在1970年代告诉人们未来会有Figma或Google Adwords这样的工具,他们可能会认为市场营销岗位会大幅减少——因为未来一个人就能做许多岗位的事情。但结果恰恰相反。粗略估算(基于AI的数据分析)显示,1970年代美国与营销相关的从业者(公关、平面设计、广告等)大约有数十万人,而如今已达到数百万。 为什么在技术让工作效率提高数倍的同时,岗位数量却增长了五倍以上?正是因为效率的提升让更多企业能够参与其中。过去广告业仅属于大型消费品或汽车公司,如今几乎所有小企业都能开展营销活动。营销技术、CRM系统、数据分析、图形设计软件、投放平台、新的分销渠道等科技手段,让更多企业能证明做复杂营销是“划算的”。AI的普及将使这种现象在更多行业中重演。 杰文斯悖论正降临到知识工作领域。通过让执行各种任务的成本大幅降低,我们最终会做得更多。未来绝大多数AI计算资源(tokens)将用于我们今天根本不会做的事情——那些原本不会启动的软件项目、不会被审阅的合同、不会被发现的医学研究、以及不会被推出的营销活动。
大型公司中优秀工程师为何也会写出糟糕代码
大型公司中优秀工程师为何也会写出糟糕代码 每隔几年,总有人注意到大型科技公司有时会产出令人意外的粗糙代码。如果你没有在大公司工作过,可能很难理解这是怎么发生的。大型科技公司薪资丰厚,足以吸引许多能力出众的工程师。他们的开发节奏也相对缓慢,看起来似乎有充足时间打磨出高质量的作品。那糟糕的代码究竟是如何出现的? 大多数代码改动都由“新人”完成 主要原因在于:大型公司里充满了在非擅长领域工作的工程师。平均来看,大型科技公司的员工任期通常只有一到两年。事实上,这些公司的薪酬结构本身就设计成让工程师的工作周期被限制在四年之内:四年后,最初的股票赠与完全归属,意味着工程师可能面临 50% 的收入骤减。公司虽然会临时提供每年的“股票刷新”(refresh),但这显然会促使工程师去寻找下一份能重新锁定四年股票的新工作。 如果把公司内部的“团队调动”也算进去,情况就更糟了。笔者职业生涯中,在同一个团队或同一代码库待得最长的时间是三年——那还是刚入行时。如今几乎每年都会经历一次重组,甚至更频繁。 然而,大公司中代码库的寿命却远远更长。笔者目前维护的许多服务已有十年以上历史,期间换过无数个负责人。这意味着,许多工程师总是在“摸索中工作”。相当高比例的代码改动都出自“新手”之手——也就是那些刚加入公司、刚接触这套代码库、甚至刚开始学习这门编程语言不到六个月的人。 “老手”的作用 在某种程度上,这个问题由所谓的“老手”部分缓解。这些工程师长期围绕某个系统工作,积累了深厚的经验,能在代码审查中指出明显问题。但依赖“老手”有两个问题。 首先,这完全是非正式机制。大公司在培养系统级长期专家方面投入甚少,甚至在获得专家后也几乎不在意如何留住他们。这些人常常被调往其他服务,只能出于“志愿”心态继续维护旧系统,否则也得像新人一样在新系统里重新摸索。 其次,有经验的工程师几乎总是超负荷。在某个服务上拥有深度专业知识的人总是事务繁忙,根本没有时间亲自审查每一次改动,也无法参与所有技术决策。别忘了,他们也有自己的工作任务——如果他们把全部精力花在评审和会议上,反而会因为个人产出不足而被公司批评。 “中位数级别”的高产工程师 把这些因素放在一起,大型公司中“中位数级别的高产工程师”通常是这样的: 他们几乎都在赶工期,或者同时被多个项目的重叠截止日期压着。换句话说,他们尽力而为,但环境本身并不支持产出高质量代码。 这就是“显而易见的糟糕代码”出现的原因。例如,一个初级工程师接到修复某个讨厌 bug 的任务,对这份代码库几乎一无所知。他花了几天时间摸索,想出一个临时补丁式的解决方案。一位“老手”(如果幸运的话)在空闲半小时内看了一眼,否决原方案,并建议一个稍好、至少能用的替代办法。初级工程师尽力实现、简单测试通过、经过一次简短评审后便上线。所有人立刻转向下一个更高优先级的任务。五年后,有人看到这段代码,惊叹道:“天哪,这写得太糟糕了——这么大的公司怎么会有人写出这种东西?” 大型公司对此心知肚明 作者指出,他曾在多篇文章中分析这种公司内部的技术动态。最直接的一篇《像软件公司一样思考》中,他认为大公司始终优先追求内部可读性——即“能一眼看出谁在做什么,并能随时更换人员”的能力——而非生产力本身。 他们很清楚,让工程师“可替换”、频繁调动,会削弱在某一代码库中积累深度经验的能力。但这是一种有意为之的权衡:公司愿意牺牲一部分专业性与代码质量,以换取在“本月最热门问题”出现时,能迅速调动熟练工程师的灵活性。 这种策略究竟是好是坏,作者也不确定。但显然,它对大公司运作是有效的——尤其在如今“你能多快转向 AI 相关项目”成为竞争核心的时代。既然公司主动选择这种模式,那么产出一些真正糟糕的代码就不可避免。当你要求工程师在不熟悉的系统上快速交付成果时,这就是自然后果。 个体工程师对此完全无能为力。尤其在 2025 年,如今权力的天平更加倾向于公司高层而非工程师。个人能做的最好努力,就是尽量成为一个“老手”:在至少一个领域积累专业知识,用它来阻止最糟糕的改动,并在团队中引导出至少“合理”的技术决策。但这常常是逆流而行,若处理不当,甚至可能导致你被绩效警告(PIP)或更糟的后果。 “纯粹”与“不纯粹”的工程 作者认为,这一切归根结底源于“纯粹工程”与“不纯粹工程”的区别。 对“纯粹工程师”而言——他们从事的是自成体系的技术项目,例如编程语言或算法开发。在他们看来,糟糕的代码只可能出自能力不足。 而“不纯粹工程师”更像水管工或电工。他们总在赶进度、处理新项目,即便技术功底扎实,也不可避免地会被某些奇怪、意外的环境因素拖累。在这种情境下,写出一些“不完美代码”几乎是必然的。只要系统整体能正常运行,项目就算成功。 在大型公司中,工程师往往无法选择自己是做“纯粹”还是“不纯粹”的工程。那不是他们的代码库!如果公司想让你从数据库基础设施转到支付系统开发,他们有充分权力这么做。你在陌生系统中犯错的可能性——或你的旧团队因失去你而遭遇困境——这些都是公司而非工程师本人所做的取舍。 指出大公司代码糟糕的例子是没问题的。至少这能促使具体问题被修复——因为高层往往乐于把“坏名声”转化为“好公关”。但作者认为,把责任主要归咎于工程师是错误的。即便你能挥动魔杖让所有工程师能力翻倍,糟糕代码仍会存在,因为几乎没有人能在全新的代码库中毫无错误地快速修改代码。根本原因在于,大多数大公司工程师被迫在自己不熟悉的代码中工作。
如果 Meta 的人工智能模型能够读取全脑信号,为什么大脑自己不能?
文章以磁感应现象开篇,指出候鸟与海龟能利用地球磁场导航,这种能力被称为“磁感受”(magnetoreception),并举出多种生物实例:磁性细菌通过体内磁铁矿链条实现导航;陆生植物的生长与萌发会受微弱磁场影响;蜜蜂腹部含有磁铁矿,能依磁场定向;美洲蟑螂在特定射频下行为紊乱;果蝇依赖隐花色素在蓝光下识别磁方向;帝王蝶利用磁感应与时间补偿完成迁徙;红海龟幼体能在人工线圈磁场中定向;鲤鱼在池塘中自然排列南北;鲨鱼与鳐鱼借洛伦兹壶腹感知电磁场捕猎;蝌蚪的取向与视觉系统的磁感耦合;箱龟在磁场被扰动时失去归巢能力;小鸡能靠磁罗盘找到社交奖励;信鸽在头部磁场改变时偏离航向;盲鼹鼠在地下拥有独立于光的磁罗盘;牛与鹿的放牧队形在全球范围呈南北朝向;家犬在平静磁场下排泄姿势会对准南北;人类的 α 波脑电在地球磁场旋转时出现方向特异反应。 作者指出,进化似乎“钟爱”磁场感知,因为拥有方向感有利于生存,而这种感应方式几乎在所有生命中都能找到,包括人类。 接着文章谈到,科学家已确认人类确实能感知磁场。2019 年,加州理工学院研究人员让志愿者进入屏蔽地磁的房间,内部有可控制磁场的大型发生器,并用脑电图(EEG)监测大脑活动。结果显示,部分受试者在磁场变化时出现明显脑电反应。 作者由此提出疑问:既然人脑能对磁场变化作出反应,却并未自觉意识到,那是否可能影响情绪?甚至调侃说,也许不该太轻视占星术——毕竟月球引力确实能影响地球磁层。 随后转入“生物磁学”(biomagnetism)的定义:即“由生物体产生的磁场现象”。文章列举多种能产生磁场的生物实例,如:弱电鱼的电器官会产生脉冲电流并形成可检测的纳特斯拉级磁场;蚯蚓的神经动作电位能被磁共振光谱检测到;小龙虾巨轴突的电流能生成 10⁻¹⁰ 至 10⁻⁹ 特斯拉的磁场;青蛙坐骨神经动作电位能产生皮可特斯拉级磁场;豚鼠的离体心脏可被磁心电图检测;猫的听觉皮层磁场可由脑磁图测得;猕猴的触觉与听觉反应也可用 MEG 映射;兔子的麻醉状态下大脑去极化过程能被 SQUID 磁仪探测;人类体内可常规测得心磁、脑磁、肌磁与神经磁信号。 作者解释道:人体依靠电信号运行,因此自然也会产生磁场。而令人着迷的是——我们既能检测磁场,又能制造磁场。 接着介绍脑磁图(MEG,Magnetoencephalography)技术——一种通过测量大脑内电流产生的磁场来绘制脑活动图像的功能性神经成像方法。文中指出,Meta 公司的研究人员利用 MEG 成功将人脑磁场解码为图像和文字。作者调侃说:“谁还记得我们在 2023 年就已经成功读取人类思想?” 研究人员通过在公开的 MEG 数据集上训练模型,然后用这些模型解码实验参与者的脑活动。论文中写道:“总体而言,我们的结果显示,MEG 可以以毫秒级精度解读大脑中复杂表征的生成过程。” 作者感叹,这意味着我们能从磁场中读取大脑的“高保真”思维信息。也就是说,大脑的磁场就像是一种能以毫秒级精度实时反映脑状态的输出信号。于是提出新的问题:既然人类能感知磁场,也能生成磁场,那大脑是否可能“读取”自身的磁场?进化怎么会放过这样一个可用来感知自身状态的“无线摘要”系统?这或许正是哲学与神经科学长期未解的“绑定问题”(binding problem)的答案。 接着文章引出“磁铁矿生物成矿”(magnetite biomineralization)的科学机制:这是一种由基因控制的生化过程,生物体可制造出完美的铁磁晶体,通常为单磁畴结构。这一机制早在 20 亿年前的磁性细菌中就已进化出来,并可能被更高等生物(包括人类)所继承。换言之——人脑中确实存在由自身生成的铁磁晶体,这是已被确立的科学事实。 不过作者也提醒不要过于兴奋——地球磁场的强度要比大脑磁场强 5000 万到 5 亿倍。因此,虽然这些晶体能检测地球磁场,但是否能感知大脑自身的微弱磁场仍是疑问。作者给出的答案是:“完全有可能。” 这些铁磁晶体的尺寸恰好处于能与特定脑波频谱(即神经振荡)发生共振的范围。这种称为“随机共振”的现象在数学上可在大脑中实现,能让这些微晶体在局部区域抵消地球磁场,从而感应到更微弱的自体磁场。 于是作者总结出三个条件: 接下来的部分题为“万物皆计算”。作者提出假设:如果这些晶体能“读取”磁场,那么它们也可能“写入”磁场,因为神经化学作用可以比磁场本身更容易地影响这些晶体。也就是说,大脑或许可以通过这些“生物磁铁”自我调节。 他进一步推想:大脑的磁场代表了当下思维的全局状态,是对神经元活动的即时压缩信号,延迟几乎为零,只受光速限制。而大脑可能利用这种“类比压缩”来整合庞大的信息,使之成为可用于决策的全局输入。 但如果大脑能“读取”,就必须也能“写入”。作者于是引入一个关键的生理结构——蓝斑核(locus coeruleus,意为“蓝点”)。这是一处位于脑干中心的小区域,负责合成去甲肾上腺素(norepinephrine),调节大脑的警觉、专注与可塑性。蓝斑核的投射范围极广,从脊髓、脑干、小脑、下丘脑到皮层几乎无所不及。该系统影响觉醒、记忆、情绪、创造力、决策、压力反应、身体平衡及预测误差等多种功能。作者指出,这个系统几乎就是一个“全局写入机制”。 文章接着构建了一个假设性循环模型: 在“意识这一比预期简单的问题”部分,作者提出意识也许正是这种压缩机制的产物——“感觉到的”意识,其实就是神经活动的有损压缩版本,是数据降维的主观体验结果。换句话说,大脑是计算机,而“意识的感觉”正是高度优化的数据压缩副产物。 文章最后转向环境因素,指出污染导致的大脑磁晶体污染问题可能扰乱这一自我调节系统。空气中的污染颗粒进入嗅觉神经,混入大脑,与天然磁晶体不同,它们体积更大、形态多样,可能破坏原有磁共振系统,从而影响学习与记忆。研究发现,空气污染与阿尔茨海默病高度相关,甚至已有因果证据。而令人警醒的是——阿尔茨海默病最早的病变迹象之一,正是出现在蓝斑核区域。
Claude 代理技能:从第一性原理出发的深度解析
Claude 的“代理技能(Agent Skills)”系统是一套以提示词为核心的元工具架构,通过“专门化指令注入”来扩展大语言模型的能力。与传统的函数调用或代码执行不同,技能通过“提示展开”和“上下文修改”来改变模型随后处理请求的方式,而不需要编写可执行代码。 该文章从第一性原理拆解了“代理技能”体系,描述了一个名为“Skill”的工具如何作为元工具,将特定领域的指令注入对话上下文;并以“skill-creator”和“internal-comms”两个技能为案例,贯穿文件解析、API 请求结构以及模型决策过程的全生命周期讲解。 总览 报道总结称,Claude 通过“技能”来改进其处理专门任务的方式。技能以文件夹形式存在,包含说明、脚本和资源,便于在需要时加载。系统采用“声明式、基于提示词”的发现与调用机制:模型依据系统中呈现的文字性描述来决定是否调用技能,底层不依赖算法级的技能选择或意图检测;决策完全发生在模型自身的语言推理过程中。 文章强调,技能并非可执行代码:不会运行 Python 或 JavaScript,也没有 HTTP 服务或函数调用;它们也不是硬编码在系统提示中,而是存在于 API 请求结构的独立部分。 报道将技能定义为“注入到对话中的专门化提示模板”。技能被调用时,会同时修改会话上下文(注入指令)与执行上下文(调整工具权限并可切换模型)。技能并不直接“做事”,而是展开为详尽的提示,帮助模型以更合适的方式解决特定问题;在模型可见的工具模式中,每个技能都像动态加入的工具模式项一样出现。 当用户发送请求时,Claude 会接收三部分信息:用户消息、可用工具(如 Read、Write、Bash 等),以及“Skill”工具。Skill 工具的描述中包含所有可用技能的名称、描述及相关字段的格式化清单。模型读取该清单并以语言理解匹配用户意图;例如当请求与“internal-comms”描述吻合时,模型会以 command: “internal-comms” 的形式调用 Skill 工具。 术语说明方面,文中区分了“Skill 工具”(大写 S,管理所有技能的元工具,出现在工具数组中)与“skills”(小写,指像 pdf、skill-creator、internal-comms 这样的具体技能)。 文章再次强调,技能选择机制无算法路由或意图分类;系统将所有技能以文本形式嵌入 Skill 工具的提示中,由模型自行决策。这是纯粹的 LLM 推理:无正则、无关键词、无基于 ML 的意图检测,决策发生在模型的前向计算中,而非应用代码。 工具与技能的差异 报道给出了一张对照表以澄清“传统工具”与“技能”的差别:执行模型(同步直接 vs. 提示扩展)、目的(执行操作 vs. 引导复杂流程)、返回值(即时结果 vs. 会话与执行上下文变更)、并发性(通常安全 vs. 不并发安全)以及类型(多样 vs. 始终为“prompt”)。 如何构建技能 文章以 Anthropic 技能仓库中的“skill-creator”为案例,指出技能是将专业知识打包为可组合资源,使通用代理转化为更契合需求的专门化代理。核心洞见为:技能…
2026大创想:第一部分
作为投资者,他们的工作是深入理解科技行业的每一个角落,从而洞察未来趋势。每年12月,a16z都会邀请各投资团队分享他们认为来年科技创业者最有可能解决的一个重大问题。 今天发布的是来自基础设施团队(Infrastructure)、成长团队(Growth)、生物与健康团队(Bio + Health)以及Speedrun团队的观点。明天将继续发布其他团队的看法。 基础设施 Jennifer Li:创业公司将驯服多模态数据的混乱 非结构化、多模态数据长期以来是企业最大的瓶颈,也是尚未开发的最大宝藏。每家公司都淹没在PDF、截图、视频、日志、电子邮件以及半结构化数据的泥沼中。模型越来越聪明,但输入却越来越杂乱,导致RAG系统出现幻觉、智能体在微妙而昂贵的方式中崩溃,关键工作流依然严重依赖人工质量检验。如今限制AI公司的不再是算法,而是数据熵(data entropy):企业知识中那80%存在于非结构化世界的部分,正在经历新鲜度、结构化程度和真实性的持续衰变。 因此,理清非结构化数据成为一次世代级的机遇。企业迫切需要一种持续的方式来清洗、结构化、验证并治理其多模态数据,使得下游AI任务真正能正常运行。用例无处不在:合同分析、入职流程、理赔处理、合规、客户支持、采购、工程搜索、销售赋能、分析管线,以及所有依赖可靠上下文的智能体工作流。那些能从文档、图像、视频中提取结构信息、解决冲突、修复数据管线、保持数据新鲜且可检索的初创公司,将掌握企业知识与流程的钥匙。 Joel de la Garza:AI将重振网络安全招聘 在过去十年中,首席信息安全官(CISO)面临的最大挑战是招聘。2013年至2021年间,网络安全领域的职位缺口从不足100万增长到300万。原因在于安全团队雇佣了大量技术人员,让他们每天从事极其枯燥的一级安全工作,例如审查日志——而几乎没人愿意做这种事。问题在于,正是这些安全团队通过购买“检测一切”的产品,制造了这种工作量,从而造成“需要审查一切”的恶性循环,进而形成虚假的劳动力短缺。 到2026年,AI将打破这种循环,通过自动化大量重复冗余的工作来缩小招聘缺口。任何在大型安全团队工作过的人都知道,一半的任务完全可以自动化,只是当人们淹没在工作中时,根本无暇去找出应当自动化的部分。AI原生安全工具将代替安全团队完成这一任务,从而让他们终于能做自己真正想做的事:追踪黑客、搭建新系统、修复漏洞。 Malika Aubakirova:智能体原生基础设施将成为企业标配 2026年,企业基础设施的最大冲击不会来自外部公司,而是源自内部。世界正从“人类速度”的、可预测且低并发的流量,转向“智能体速度”的、递归式、突发性且海量的负载。 当下的企业后端是基于人机交互设计的——即每一个用户动作对应一次系统响应。然而,它并未被设计来应对这样的场景:单个智能体的“目标”会在毫秒级内触发5000个子任务、数据库查询与内部API调用。当智能体试图重构代码库或修复安全日志时,它在系统眼中并不像一个用户,而更像一次DDoS攻击。 构建2026年的基础设施意味着必须重新架构控制平面。“智能体原生(agent-native)”基础设施将崛起。下一代系统必须将“惊群效应”视为默认状态,冷启动时间需缩短,延迟波动必须压缩,并发能力则需提升几个数量级。新的瓶颈将变成协调能力:在大规模并行执行中进行路由、锁定、状态管理与策略执行。唯有能在这场“工具洪流”中存活的平台,才能赢得未来。 Justine Moore:创作工具将进入多模态时代 现在AI已经具备讲故事的构件:能生成声音、音乐、图像和视频。但只要创作者想要制作超越“短片”级别的内容,就会发现过程依然耗时、痛苦、几乎不可能实现——尤其当他们想要获得类似传统导演那样的控制力时更是如此。 为什么不能让模型读入一段30秒的视频,然后续写场景、引入由参考图像和声音创建的新角色?为什么不能重新拍摄同一个片段,让镜头换个角度,或者让动作匹配另一段视频? 2026年将是AI多模态创作元年。只需提供任意形式的参考素材,就能与模型协作创作新内容或编辑现有场景。像Kling O1和Runway Aleph这样的早期产品已经出现,但仍有大量空间等待创新——不仅在模型层,也在应用层。 内容创作是AI最具潜力的应用之一,预计将出现多个成功的产品,覆盖从表情包创作者到好莱坞导演的不同用户群体。 Jason Cui:AI原生数据栈继续演化 过去一年中,“现代数据栈”领域出现大量整合。数据公司从聚焦单一环节(如数据摄取ETL、转换、计算)转向整合化平台。例如Fivetran与dbt的合并,以及Databricks等统一平台的崛起。 虽然整个生态显得更加成熟,但距离真正的AI原生数据架构仍处早期阶段。AI正重塑数据栈的各个部分,而数据与AI基础设施也正在深度融合。 以下是团队关注的几个方向: Yoko Li:2026年——人将“走进视频” 到2026年,视频将不再是人们被动观看的东西,而会成为可以真正“走进去”的空间。视频模型终于能理解时间,记得自己展示过的内容,能对用户的行为作出反应,并维持与现实世界一致的连贯性。它们不再生成几秒钟无关的画面,而能维持角色、物体和物理规律足够长的时间,让行动与后果产生意义。 这一转变将视频变为可构建的媒介:机器人可以在其中训练,游戏可以在其中演化,设计师可以原型化作品,智能体可以通过行动来学习。最终形成的不再是“片段”,而是有生命的环境——一个逐渐缩小“感知与行动”差距的世界。人类第一次能真正**“进入自己生成的视频”**。 成长团队(Growth) Sarah Wang:记录系统(System of Record)将失去主导地位 到2026年,企业软件领域真正的颠覆将是——系统记录层的主导地位开始瓦解。 AI正在迅速缩短“意图”与“执行”之间的距离:模型如今能够直接在运营数据之上进行读取、书写和推理,把IT服务管理(ITSM)和客户关系管理(CRM)系统从被动数据库转变为自主工作流引擎。随着推理模型与智能体化工作流的持续进步,这些系统将不仅能响应,还能预测、协调并自动执行端到端流程。 用户界面将演变成动态的“智能体层”,而传统的系统记录层将退居幕后,只作为一个通用的数据持久化层。谁掌握了智能执行环境(intelligent execution environment)——也就是员工实际使用的那一层——谁就将拥有战略控制权。 Alex Immerman:垂直领域AI将从信息检索与推理,走向多人协作 AI推动垂直行业软件实现了前所未有的增长。医疗、法律、房地产类公司在短短几年内便突破了1亿美元年经常性收入(ARR);金融和会计领域也紧随其后。 最初的阶段是信息检索:找到、提取并总结正确的信息。到2025年,发展进入推理阶段:例如Hebbia可以分析财务报表并自动构建模型,Basis能在系统之间调节试算平衡,EliseAI能诊断维修问题并派出正确的供应商。 而2026年将开启第三阶段——“多人模式”(multiplayer mode)。 垂直行业软件具备特定的界面、数据和集成优势,但这些领域本质上都是多方协作的。若AI智能体要代表人类劳动,它们也必须学会协作。…