由前Neuralink总裁兼联合创始人Max Hodak创立的初创公司Science Corporation,正在筹备其生物混合脑机接口的首次美国人体试验,并已邀请一位顶尖神经生物学家参与领导该项目。 耶鲁医学院神经外科主任Murat Günel博士在经过两年的讨论后,已同意担任科学顾问。他的目标是在患者大脑中外科植入首个传感器,这一装置将成为未来接口的一部分——该接口最终将把实验室培育的神经元与电子设备结合起来。 Science公司成立于2021年,上个月刚刚完成了一轮2.3亿美元的C轮融资,公司估值达到15亿美元。其目前最成熟的产品是PRIMA,这是一种用于恢复因黄斑变性等疾病导致失明患者视力的设备。公司于2024年收购了该技术,并已将其推进至临床试验阶段,计划在获得监管批准后,可能最早于今年在欧洲更广泛地推广使用。 不过,Hodak创立公司的初衷远不止于此。他的更宏大愿景是建立计算机与人类大脑之间可靠的通信连接——不仅用于治疗疾病,还为人类增强铺平道路,例如为人体增加全新的感官。他长期致力于这一方向,从大学时期设法进入神经科学实验室,到创立首家生物计算初创公司,再到与Elon Musk共同创建Neuralink。 Neuralink以及其他组织已经成功利用电子传感器检测患有肌萎缩侧索硬化症(ALS)、脊髓损伤等疾病患者的大脑活动。这些患者由于大脑与身体之间的通信被切断,通过植入设备,可以仅通过思考来控制计算机或在屏幕上生成文字。然而,这类设备真正形成市场的路径仍然不明朗,原因在于监管挑战以及适用患者数量相对有限。 Hodak本人认为,传统使用金属探针或电极通过电信号影响大脑的方式并不是未来的最佳路径。尽管这种技术已经取得显著成果,但Günel指出,这些探针会对大脑造成损伤,长期来看可能会削弱设备性能。正是这种局限性促使Science的创始团队转向一种更“有机”的方法。 Günel对TechCrunch表示:“利用神经元的自然连接,在电子设备与人脑之间建立一种生物界面,这一想法非常天才。” 公司联合创始人兼首席科学官Alan Mardinly带领一支由30名研究人员组成的团队,开发了这种生物混合传感器。最终设备将嵌入实验室培育的神经元。这些神经元可以通过光脉冲进行刺激,并被设计为能够自然地与患者大脑中的神经元融合,从而在生物与电子之间建立桥梁。2024年,公司发布了一篇研究论文,表明该设备可以安全植入小鼠体内,并用于刺激大脑活动。 目前,公司内部的重点是开发设备原型,并研究如何培养适用于不同治疗场景且符合医疗标准的神经元细胞。 Günel将为团队提供指导,同时公司也正在与负责监督人体实验的医学伦理委员会进行沟通。第一步将是在人体大脑中测试该公司的先进传感器,但暂时不包含嵌入的神经元。 与Neuralink直接将设备植入大脑组织不同,Science的传感器将被植入颅骨内部,但位于大脑表面之上。也正因为这一差异,公司表示不计划为这些试验申请美国食品药品监督管理局(FDA)的批准,认为该微型设备(在豌豆大小的区域内包含520个记录电极)不会对患者构成重大风险。 团队计划选择那些已经需要接受重大脑部手术的患者,例如中风患者(他们可能需要移除部分颅骨以缓解脑部肿胀)。在这种情况下,Günel预计可以将传感器放置在大脑皮层表面,并评估其在测量脑活动方面的安全性和有效性。 Günel认为,如果该设备取得成功,它可能有助于治疗多种神经系统疾病。其中一个早期应用可能是通过温和的电刺激促进受损的大脑或脊髓细胞恢复。更复杂的应用则可能包括监测脑肿瘤患者的神经活动,并在癫痫发作前向护理人员发出预警。 如果这些设备的潜力完全实现,Günel甚至设想它们可能为帕金森病等疾病提供更有效的治疗方案。帕金森病是一种逐渐剥夺患者身体控制能力的进行性疾病。目前的治疗方法包括实验性的脑细胞移植以及利用电刺激进行深部脑刺激,但都尚未被证明能够可靠地阻止疾病进展。 他表示:“我将这种生物混合系统视为两者的结合——既有电子设备,也有生物系统。以帕金森病为例,我们目前无法阻止疾病的进展;神经外科所做的只是通过电极来抑制震颤。但如果你能够真正将这些(移植的)细胞放回大脑并保护这些神经回路,就有可能——而且我认为这种可能性很大——阻止疾病继续发展。” 不过,在实现这一目标之前仍有大量工作要完成。Günel表示,如果期望试验在2027年开始,那将是“比较乐观”的预期。
GPU计算的起源
政府资助的学术研究在并行计算、流处理、实时着色语言以及可编程图形处理单元(GPU)等领域的探索,直接促成了GPU计算的发展。 政府资助的学术研究在并行计算、流处理、实时着色语言以及可编程图形处理单元(GPU)方面的工作,直接推动了GPU计算的诞生。如今,GPU被广泛应用于现代数据中心,并促成了当前人工智能(AI)的革命。生产GPU的公司Nvidia已经成为全球市值最高的公司。这一计算方式的转变以及由此带来的巨大经济价值,是超过30年政府资助研究的成果。政府资金不仅推动了许多关键技术创新的发展,还培养了大量学生,这些人才将相关技术带入工业界。 本文追溯了GPU计算的起源。我们首先介绍构成GPU计算基础的技术(并行计算、并行图形系统、可编程着色器以及流处理),随后详细说明这些技术如何被转移到Nvidia及其他公司,并最终应用于现代机器学习领域。 支撑技术 GPU计算建立在并行计算、并行图形系统以及流处理等早期研究成果之上。这些技术是在超过30年的政府资助学术研究中逐步发展起来的。 并行计算在学习计算机时,人们通常会了解中央处理器(CPU)按顺序执行指令的模型。然而在现实中,芯片内部包含数十亿个晶体管,这些晶体管是并行切换的,并通过导线连接在一起。开关和导线是物理计算机的基本构件,它们是同时运作的。此外,晶体管的切换消耗的能量非常少,而通过导线进行通信则消耗更多能量。信号从一个位置传输到另一个位置需要能量,这种消耗随着距离增加而增大,在芯片之间通信时尤其显著。 虽然顺序计算机更容易理解,但实际上它仍然依赖大量并行工作的晶体管,并通过复杂的方式将结果组合成看似顺序执行的过程。这种“制造顺序假象”的方式在功耗和性能上都效率较低。随着晶体管数量的增加,这种低效问题会更加明显。因此,在现代半导体技术中,更自然的计算方式是设计并行计算机。GPU之所以比CPU更高效,是因为它本质上是大规模并行计算机。 GPU计算继承了早期并行计算的成果。与所有并行系统一样,GPU上的线程必须进行同步和通信。通信用于让一个线程使用另一个线程产生的数据,而同步则用于确保数据在被使用时已经准备就绪。许多关于并行计算、同步和通信的基础理论都来自政府资助的研究。例如DARPA资助的Cosmic Cube项目在并行计算方面奠定了重要基础,其思想后来被应用于多种并行计算机系统中。此外,J-Machine和M-Machine项目开发了低开销通信与同步机制,使得细粒度并行成为可能。 并行图形系统与传统并行计算相比,并行图形与图像计算的历史较少被关注,但同样重要。图像处理需要极高的计算量。例如,如果一台每秒执行一百万条指令的计算机对一张百万像素图像的每个像素执行一次运算,就需要整整一秒时间。而现代电影中的图像生成,每个像素需要大约十亿次浮点运算。因此,图形与图像处理必须依赖高性能并行计算系统。 早期的重要研究包括斯坦福的Geometry Engine项目,该项目促成了Silicon Graphics公司的成立,并定义了现代GPU架构的雏形。此外,还有Pixel Planes系统、NASA的大规模并行处理器以及Pixar图像计算机等。 最早的GPU实现的是固定功能的图形流水线,类似早期的SGI工作站。1999年发布的Nvidia GeForce 256被认为是第一款商业GPU。 后来,RenderMan系统引入了着色语言,使用户能够自定义复杂的材质与光照效果。随着实时着色语言的发展,着色器(shader)成为GPU编程的重要组成部分,并最终推动了通用GPU计算(GPGPU)的兴起。 流处理流处理是一种特殊形式的并行计算,其目标是提高计算密度(计算与内存带宽的比值)。由于数据通信消耗大量能量,流处理通过减少内存访问来提升效率。 流处理的两个核心思想是:第一,利用生产者-消费者局部性,让数据在计算阶段之间直接传递,而无需写入内存;第二,将计算组织为“核函数”(kernel),每个核函数处理一批数据并输出结果。这种方式显著减少了内存访问次数,提高了整体效率。 Imagine流处理器和Merrimac项目进一步发展了这一思想,并提出了适用于科学计算的架构。Stream-C和Brook等编程语言也相继出现,使得流处理模型可以应用于GPU。 例如,矩阵乘法是典型的高计算密度任务,也是现代神经网络的核心计算之一。GPU在执行这类任务时表现出极高效率。此外,分子动力学模拟等科学计算也成为GPU的重要应用领域。 GPU的一个关键特性是多层次并行性:每个GPU包含多个核心,每个核心又包含SIMD单元,并支持多线程执行。例如某些GPU可以同时执行数十万个任务,从而实现极高吞吐量。 技术转移GPU计算的发展不仅依赖技术,还依赖人才流动。斯坦福的流处理研究成果通过人员流动被带入Nvidia。Brook语言最终演化为CUDA,使GPU编程变得更加易用。 随着CUDA的推广,大量学生和工程师开始学习并行编程,从而推动GPU计算的普及。 推动人工智能现代机器学习依赖三个关键要素:海量数据、大规模模型以及强大的计算能力。虽然核心算法早已存在,但GPU提供了训练这些模型所需的计算能力。 随着AlexNet和GPT等成果的出现,AI能力迅速提升。GPU计算成为这一进步的关键推动力。此外,学术界与工业界的合作(如Nvidia与斯坦福的合作)也加速了深度学习的发展。 结论GPU计算背后的核心技术主要来源于长达30年的政府资助学术研究。并行计算、并行图形系统以及流处理为GPU奠定了基础。通过人才流动,这些技术被转移到工业界,并最终形成了现代GPU计算平台。GPU提供的高效、易编程以及高性能计算能力,使得机器学习得以快速发展,成为当今人工智能革命的关键支柱。
Hyperliquid 的故事
在很多创业故事中,成功往往伴随着融资、扩张和曝光,但 Hyperliquid 的故事却几乎反其道而行:拒绝投资、匿名运作、极度克制,同时却创造了惊人的效率与利润。这不仅是一个关于个人的故事,更像是一种对“公司应该如何运作”的重新定义。 故事的主角 Jeffrey Yan,并不是典型意义上的创业者。他曾经拒绝了一笔接近 1 亿美元的融资,却选择用自己的钱继续推进项目;他建立了一家年利润超过 9 亿美元、但只有 11 名员工的公司;他把数十亿美元的代币空投给用户,而不是投资人;与此同时,他却不得不配备保镖,甚至在日常生活中保持高度隐匿。这种极端反差,使得 Hyperliquid 看起来更像是一种实验,而不是一家传统意义上的公司。 如果从结果倒推原因,很容易误以为这是一种刻意设计的“反主流策略”。但事实上,这种路径更多来自 Yan 对问题本质的执着。他并不认为自己在做一个“加密公司”,而是试图重新构建金融系统本身。在他的理解中,加密技术只是工具,而不是目的。正因为如此,他对行业中大量围绕投机、套利和短期收益的行为保持距离,甚至在采访中坦言,这个行业存在大量“并不健康”的现象。 Hyperliquid 的核心,是一个建立在区块链上的交易系统,但它并不满足于成为另一个交易所。传统交易所的本质,是中心化机构托管用户资产并撮合交易,而 Hyperliquid 的设计则试图消除这一中介,让用户始终掌握自己的资金,同时通过公开的链上机制完成交易。这种结构的意义,不仅在于技术创新,更在于信任机制的重构。 这种理念,在行业危机中显得尤为重要。FTX 的崩溃,本质上就是用户资产被挪用而不透明所导致的信任破裂,而 Hyperliquid 从一开始就试图避免这一点。其核心流动性池 HLP(Hyperliquidity Provider)将所有资金与收益完全公开在链上,任何人都可以实时查看。这种透明性,使得系统本身成为一种“自我约束”,而不再依赖公司或个人的道德。 但理想并不意味着路径简单。Hyperliquid 在早期面临的最大问题,并不是技术,而是“没有人用”。交易所的本质是网络效应,没有流动性就没有用户,没有用户就没有流动性。行业的常规做法是支付做市商来提供流动性,但 Yan 拒绝这样做。他认为,这会从根本上改变系统的激励结构,使其再次依赖中心化力量。 为了打破这个循环,他采取了一种非常规策略:将自己在交易中积累的高频策略开放给用户,让任何人都可以参与并分享收益。这种方式不仅提供了初始流动性,也让普通用户第一次有机会接触到原本只属于顶级机构的交易能力。虽然在市场上涨阶段,这种策略曾一度引发用户不满,但从长期来看,它成功吸引了真正的参与者,而不是短期套利者。 与此同时,Hyperliquid 在产品设计上也不断突破传统边界。例如,它允许第三方在平台上创建新的交易市场,甚至是原本只存在于传统金融体系中的资产,如石油、黄金或股票指数。这种开放性,使得平台逐渐从一个交易工具,演变为一个可以承载多种金融活动的基础设施。 更重要的是,这些扩展并不是由团队本身完成的,而是由外部开发者推动。随着 Builder Codes 和 HIP-3 等机制的推出,越来越多的第三方开始在 Hyperliquid 上构建自己的产品,并直接分享收益。这意味着,Hyperliquid 不再只是一个“产品”,而是一个“平台”,甚至更接近一个“系统”。 这种转变,也解释了 Yan 为什么会拒绝风险投资。在他的设想中,Hyperliquid 更像是一种公共基础设施,而不是一家传统公司。如果引入投资人,就意味着需要分配股权、承担回报压力,并在一定程度上改变系统的中立性。对他来说,这种代价远高于资金本身的价值。 当然,这种选择并非没有风险。随着平台规模扩大,它开始直接面对行业巨头的竞争,包括 Binance、Coinbase 等。同时,由于其公开透明的特性,一些攻击和漏洞也更容易被利用。例如 Jelly Jelly 事件中,攻击者利用低流动性市场进行操纵,导致系统短时间内出现巨大损失。这些问题迫使团队不断在“去中心化”与“安全性”之间寻找平衡。 更现实的风险则来自线下世界。随着财富的累积和影响力的扩大,Yan 成为潜在的攻击目标。在过去一年中,针对加密行业从业者的暴力事件明显增加,从绑架到勒索层出不穷。这也是为什么…
大多数软件团队,其实并不知道自己在“花多少钱”,也不知道这些钱是否真的在创造价值
在现代企业中,软件开发往往是最昂贵的投入之一,但同时也是最缺乏财务透明度的领域。每天做决策的工程师和产品经理,会决定开发什么、延后什么、甚至放弃什么,但这些决策背后的“成本”却几乎从未被明确计算。这并不是偶然,而是一种持续了二十多年的结构性现象:组织刻意或无意地将“财务视角”排除在日常决策之外。 如果我们把问题拆开来看,事情其实并不复杂。一个普通的软件工程师,在西欧的综合成本大约在每年 12 万到 15 万欧元之间,取中间值约为 13 万欧元。这已经不仅仅是工资,还包括社保、设备、管理成本以及办公空间等。换句话说,一个由 8 名工程师组成的团队,每年的成本大约是 104 万欧元,每个月约 8.7 万欧元,每个工作日约 4000 欧元。 这个数字本身并不难算,但问题在于,大多数工程师并不知道它,甚至不少管理者也不清楚。更关键的是,即便有人知道,这些信息也很少进入实际的优先级讨论中。这就导致一个很现实的问题:团队每天都在做“投资决策”,却不知道自己在花多少钱。 一旦把这个数字带入具体场景,很多看似合理的决策就会显得完全不同。比如,一个团队花三周时间做一个只服务 2% 用户的功能,本质上是一个大约 6 万欧元的决策。再比如,为了“感觉更好”而重构系统,而不是因为用户流失,这其实是一种资本配置行为,只不过没有被当作资本配置来看待。 这种缺乏财务视角的问题,在内部平台团队中尤为明显。设想一个常见的结构:8 名工程师维护一个平台,为 100 名其他工程师服务。这个团队每个月成本约 8.7 万欧元,那么要“回本”,它至少需要为这 100 名工程师创造同等价值。最直接的衡量方式是节省时间。 如果一个工程师每月成本约 1.08 万欧元,相当于每小时约 65 欧元,那么平台需要每月节省总计约 1340 小时,也就是每人每周节省约 3 小时。这听起来并不夸张,一个优秀的平台完全可以通过自动化部署、减少重复配置等方式达到这个水平。 但问题在于,大多数团队并不会计算这个数字,更不会持续跟踪它。他们的工作路线图往往由技术兴趣、业务方需求以及季度规划驱动,而不是由“这个功能能否产生足够价值”来决定。 更重要的是,“回本”本身并不是一个合理的目标。现实世界中的投资,需要覆盖失败的成本,也需要考虑长期维护的开销。一个团队的工作不只是当前的产出,还包括未来持续的维护、复杂度的增加以及系统替换的成本。因此,一个更合理的标准是至少创造 3 到 5 倍于成本的价值。 这意味着,一个每月成本 8.7 万欧元的团队,实际上需要创造 26 万到 43 万欧元的月度价值,才能被视为真正“健康”。这个门槛远高于大多数团队的直觉,也解释了为什么很多项目从财务角度来看其实并不成立。 对于面向用户的产品团队来说,逻辑完全相同,只是变量不同。如果一个产品的每用户月收入是 50 欧元,那么团队需要每月新增或保住约…
OpenAI 与云巨头之间的关系,正在进入一个更加微妙且关键的阶段
在过去几年中,OpenAI 与 Microsoft 的合作一直被视为生成式人工智能浪潮中的标志性联盟。从早期的大规模投资,到 Azure 成为其主要基础设施支撑,这段关系无疑为 OpenAI 的快速崛起奠定了基础。然而,随着 AI 市场竞争的不断加剧,以及企业级客户需求的多样化,这种高度绑定的合作模式,也逐渐显现出其局限性。 近期,一份由 OpenAI 新任首席营收官 Denise Dresser 发给员工的内部备忘录,将这种变化更加清晰地呈现在外界面前。在这份备忘录中,她一方面肯定了 Microsoft 在公司发展中的重要作用,称其为“基础性的合作伙伴”,另一方面也坦言,这种合作在一定程度上“限制了 OpenAI 触达客户的能力”。 这种说法并非空穴来风。在企业级市场中,客户往往已经深度绑定某一云平台,而不是愿意为某个模型单独迁移基础设施。对于许多公司来说,Amazon Web Services(AWS)依然是首选,而 AWS 提供的 Bedrock 平台又聚合了多家主流 AI 模型服务。在这样的背景下,如果 OpenAI 仅依赖 Microsoft 的生态,就意味着天然失去了一部分潜在客户。 正是在这种现实压力下,OpenAI 开始主动调整策略,与 Amazon 展开更深层次的合作。就在不久前,Amazon 宣布计划向 OpenAI 投资最高 500 亿美元,这不仅是一次资本层面的加码,更代表着双方在云基础设施与企业市场上的深度绑定。Dresser 在备忘录中提到,自从合作公布以来,来自客户的需求“激增”,这一点也从侧面反映出市场对于多云支持的强烈期待。 从更宏观的角度来看,这种转变其实反映了 AI 行业竞争格局的变化。当前的企业级 AI 市场,并不只是模型能力的比拼,更是生态系统与分发渠道的竞争。谁能够更灵活地嵌入客户现有的技术栈,谁就更有可能赢得市场。 与此同时,OpenAI 还面临来自竞争对手的强大压力。Anthropic 的 Claude 模型正在企业市场迅速崛起,甚至在行业会议中被形容为一种“现象级热潮”;而 Google 的…
Terafab, Muse Spark 轨道AI、闭源模型与千亿估值:三大科技风向标
1)Terafab:英特尔加入马斯克的250亿美元轨道AI赌注 埃隆·马斯克于3月21日宣布成立Terafab,这是一个由特斯拉、SpaceX和xAI在奥斯汀共同组建的芯片制造合资企业,总投资达250亿美元。4月7日,英特尔作为合作伙伴加入,贡献了其18A工艺节点——一种1.8纳米级技术,也是目前美国境内最先进的半导体制造工艺。 Terafab预计80%的计算产出将用于一款名为D3的单一芯片,这是一种具备抗辐射能力的处理器,专为轨道AI数据中心打造。SpaceX已经向美国联邦通信委员会(FCC)提交申请,计划在近地轨道发射100万颗数据中心卫星。 马斯克认为,在三年内,在轨道上运行AI工作负载的成本将低于地面。Terafab的结构也体现了这种分工:一个工厂专注于为特斯拉Robotaxi和Optimus机器人生产边缘AI芯片;另一个工厂则完全专注于为轨道部署生产D3芯片。 2)Muse Spark:Meta缩小差距并转向专有模式 4月8日,Meta发布了Muse Spark,这是其超级智能实验室推出的首个模型。该模型由Meta首席AI官Alexandr Wang领导的团队在九个月内开发完成。该模型为闭源模型,标志着Meta在前沿AI战略上的转变。这与此前的Llama策略形成了明显对比——Llama曾帮助Meta成为开源权重AI领域的标杆。 Muse Spark在多模态感知、推理、医疗和智能体任务方面表现出竞争力。在医疗领域,Meta与1000名医生合作,构建了Muse Spark的临床能力。 Meta表示,该模型以10倍更低的计算成本达到了与Llama 4 Maverick相当的能力。目前该模型已在Meta AI应用和网站中运行,并计划在未来几周内推广至WhatsApp、Instagram、Facebook、Messenger以及Meta的AI眼镜。Meta声称其模型扩展具有可预测性,而Muse Spark只是这一发展轨迹中的早期数据点,更大规模的模型正在开发中。 3)OpenAI估值达8520亿美元:测试新的IPO路径 3月31日,OpenAI完成了一轮1220亿美元融资,投后估值达到8520亿美元,成为历史上规模最大的私募融资事件。OpenAI是最快达到1亿用户的科技平台,同时也有望成为最快达到每周10亿活跃用户的平台(目前约为9亿)。 首席财务官Sarah Friar在4月8日确认,OpenAI将在IPO中为散户投资者保留一部分股份。 “必须让每个人都能参与,而不是只有极少数人受益,其他人被排除在外。”——OpenAI首席财务官Sarah Friar 在通过摩根大通、摩根士丹利和高盛进行的IPO前私募配售中,OpenAI原计划从个人投资者那里筹集10亿美元,最终获得了30亿美元。这被这些银行称为他们执行过的最大规模私人散户配售。 OpenAI正朝着可能在2026年下半年提交上市申请的方向迈进,估值接近1万亿美元。他们预计到2030年收入将达到2800亿美元,而目前年化收入已超过200亿美元。
大语言模型的上下文工程指南
《大语言模型的上下文工程指南》 在使用大语言模型(LLMs)时,一个非常反直觉的事实是:给模型更多的信息,反而可能让它表现得更差。2025年,Chroma 对18个主流模型进行测试,结果显示,当输入长度超过某个临界点后,模型准确率会从接近95%骤降至60%。这说明,“信息越多越好”其实是一个误区。 真正重要的,不是信息的数量,而是信息的选择与组织方式。这正是“上下文工程”(Context Engineering)要解决的问题。 理解上下文工程,首先要从模型如何处理信息说起。大语言模型并不是像人类一样从头到尾阅读文本,而是通过“注意力机制”同时比较所有token之间的关系。Token是模型处理文本的基本单位,通常是词的一部分;而上下文窗口,则是模型在一次交互中可以看到的全部token总量。 虽然模型理论上可以关联长距离信息,但实际上注意力分布并不均匀。研究表明,模型更关注输入的开头和结尾,而中间部分的信息容易被忽略,这种现象被称为“中间丢失问题”。如果关键信息被埋在中间位置,模型的表现可能下降超过30%。 除了位置问题,还有一个更严重的现象叫“上下文腐化”。随着输入内容增加,模型的表现并不会线性下降,而是可能在某个点突然崩溃。这是因为注意力是一种有限资源,过多无关或“似是而非”的信息会干扰模型判断,使真正重要的信息被淹没。 此外,大语言模型本身是“无记忆”的。它不会真正记住之前的对话,每一次交互都是重新加载上下文。因此,每一次调用模型,都需要重新决定:哪些信息应该被保留,哪些应该被舍弃,以及如何组织这些信息。 这就引出了上下文工程的定义:它是对模型在生成回答前所看到的“全部信息环境”的设计与管理。与提示工程只关注“如何提问”不同,上下文工程关注的是“模型此刻应该看到什么”。 在一个典型的系统中,真正的用户问题往往只占很小一部分。上下文中还包括系统指令、对话历史、外部检索内容、工具描述以及工具输出等。这些“基础设施”才是决定模型表现的关键。 围绕这些约束,业界逐渐总结出四种核心策略。 第一是“写入”(Write)。由于上下文窗口有限,应将重要信息存储在外部,例如作为长期记忆或中间推理记录。模型在需要时再读取这些信息,而不是一直占用上下文空间。 第二是“选择”(Select)。不要把所有信息都塞进模型,而是只提供当前任务最相关的内容。最典型的方法是检索增强生成(RAG),从外部数据库中提取相关片段。这一策略的关键在于检索精度,如果检索结果不够精准,反而会成为干扰。 第三是“压缩”(Compress)。随着对话变长,上下文会迅速膨胀,因此需要对历史信息进行总结或裁剪。例如对话摘要或精简工具输出。但压缩本质上是一种信息丢弃,一旦丢掉关键细节,就无法恢复。 第四是“隔离”(Isolate)。当任务复杂时,可以将其拆分为多个智能体,每个智能体处理不同子任务,并拥有独立的上下文。例如一个负责检索信息,一个负责写作。这种方式可以避免信息混杂带来的注意力稀释。 这些策略各有优缺点。例如,压缩可以节省token,但可能丢失重要信息;多智能体可以提升表现,但会增加复杂度与成本;检索可以补充知识,但也可能引入噪声。因此,上下文工程本质上是一系列权衡。 最终可以得出的核心结论是:模型的能力,很大程度上取决于它所接收到的上下文。随着模型越来越强大,失败的原因不再是“模型不够聪明”,而是“上下文设计不当”。 换句话说,未来使用大语言模型的关键能力,不只是选择哪个模型,而是如何为它构建一个正确的信息环境。
2 Sigma 问题:一对一导师
教育领域的“应许之地”一直是一对一辅导,这一理念可以追溯到亚里士多德亲自教导年轻的亚历山大大帝。历史上唯一有可能实现这一目标的技术终于出现了。风险投资人反复鼓吹这一乌托邦式应用,却把资金投向了几乎所有其他方向。而直到今天,仍然没有人真正将它的潜力发挥到极致。 1984年,本杰明·布卢姆发现,接受一对一辅导的学生,其表现比传统课堂教学的学生高出两个标准差。也就是说,一个处于中位数(第50百分位)的辅导学生,其表现可以超过98%的普通学生。 尽管该研究设计存在一定问题,但现代更严谨的研究仍然显示,辅导的效果在0.35到0.50个标准差之间。这依然意味着,即便是一个普通导师,也能让你从第50百分位提升到第67百分位!如果拥有世界级导师,提升幅度还会更大。 这是迄今为止最有效的教育干预手段,同时也是最难规模化的方式。 在过去十多年里,一些团队构建了基于规则的(前大模型时代)系统,这些系统会根据学生之前的回答,将他们引导到不同的问题路径上,本质上类似一个复杂的流程图。 这些系统还尝试应用其他经过验证的学习方法,例如间隔重复、掌握式学习以及即时反馈。 它们看起来确实有一定效果。例如 ASSISTments 在2800名学生的随机对照试验中取得了0.18到0.29个标准差的效果。DARPA 花费1亿美元、历时七年开发了一套数字导师系统,用于培训海军IT人员,据称效果达到1到3个标准差。Synthesis 和 Math Academy 认为他们可以在K-12数学领域实现多个标准差的提升,尽管也有人持不同意见。 产品仍停留在20年前 无论这些系统在现实中的效果如何,我们认为它们很难获得广泛采用,因为学习体验的丰富性仍然局限于动态题目分配算法。 用户体验是静态的、缺乏生命力的、机械化的:屏幕上的文字,也许配上一张静态图片,底部是一个等待点击的选择题框。 绝大多数人并不喜欢这样的学习方式,即使勉强坚持,也无法达到最佳学习效果。 教学引擎或许在底层做了复杂的优化,内容质量或许很高,但学生真正接触到的界面,与一本会自动评分的教科书几乎没有区别。 它们与真正的顶级线下一对一导师之间的差距,就像舔电脑屏幕上的冰淇淋图片。 那个没人愿意谈论的“房间里的大象” 现代生成式人工智能,是历史上唯一可能真正实现这种理想的一对一教学体验的技术,而且成本几乎可以忽略不计。它甚至有可能同时解决产品体验和经济模型的问题。 然而,没有人真正朝这个方向构建产品。事实上,我们接触的几乎所有教育科技公司都明确否认其价值,认为它或许可以一次性生成80%质量的课程,但剩下的20%缺陷使其毫无用处。即使我们提醒他们几年后情况可能不同,他们依然坚持“我的职业会是最后一个被替代的”这种说法。 指数级变化,即便对数学老师来说也很难真正理解。 我们的核心观点是:参与感与深度学习不再必须相互对立。 当教学真正有效时,学习可以成为一种极具成就感、提升自信、甚至令人愉悦的体验。令人痛苦的是那种漫无目的的摸索,以及缺乏基础知识导致连入门都困难的状态。世界上最优秀的老师,能够迅速缩短努力与“顿悟时刻”之间的距离,同时让你感到被理解和被赋能。 一个超人级教师,很快就可以被构建出来。研究表明,经过适当结构设计的大语言模型,已经可以成为相当不错的一对一导师。目前的准确性与幻觉问题,在良好设计下可以控制在约1%。上下文长度仍是工程挑战,因为随着对话持续,质量与连贯性会下降,类似 Claude Code 会话中的压缩问题。但在两年内,它们几乎肯定可以实时生成世界级课程。 此外,大语言模型已经展现出生成丰富、个性化、多模态内容的能力。过去一年,它们可以基于你的内容生成定制播客。现在,它们已经能够一次性生成动态数学可视化视频。 很快,这些多模态体验将变得可交互。你可以通过语音打断、提问,并获得深入回答。教学将从单向讲授转变为对话。产品将从被动消费转变为层层递进的主动体验式学习。 这些能力还会继续增强,例如构建“世界模型”。历史课程可以让你身临其境地置身历史场景,与历史人物对话。游戏可以达到GTA级别,同时让你学习核心知识。 甚至可以用虚拟化身作为导师。类似 Masterclass 的商业模式可以被重塑,名人无需花费时间录制课程,只需授权其形象。 另一种提升参与度的方式是个性化。例如,一个孩子热爱棒球,那么他的课程就由他喜欢的球星讲解,所有题目都围绕棒球展开。系统还应识别你是视觉型学习者,并调整教学方式。 学习如何学习 系统应能够自主学习教学方法,即理解“人类如何学习”,以及“某个个体如何学习”。它应能在低数据环境中进行实验,并调整自身行为。 理论上,它可以利用用户所有交互数据:答题记录、反应时间、语音语调中的自信程度、摄像头捕捉的面部表情、视线焦点等。 当然,这需要用户信任设备端AI或隐私保护技术,例如 zkML。 更具技术野心的方案,是构建一个多模态Transformer,将这些输入转化为实时认知状态分布。例如区分“机械执行步骤”与“有效探索性思考”。 一种可能的路径是:使用前沿模型生成大量“学生代理”,在模拟环境中训练教学系统,再通过少量真实学生验证。 布卢姆愿景的科幻实现 这些学习引擎可以应用在哪些场景?我们对其在STEM辅导、SAT备考和职业发展中的应用感到兴奋。 但还有许多被忽视的可能性: 一个帮助你提升工作能力的浏览器插件:它观察你的工作流程,推荐学习内容或自动化重复任务。 一个“以自信为核心”的技能平台:类似语言学习应用,通过虚拟现实练习演讲或面试,消除心理压力。 脑机接口用于提升学习效率:例如刺激语言学习相关脑区,或通过脑电信号捕捉“顿悟时刻”,自动生成学习笔记。 全新的商业模式 例如垂直整合的技能培训公司,快速培养电工、暖通技师等高需求职业。 或者一个以“理想工作”为目标的学习系统,仅教授必要知识,大幅缩短培养周期。 甚至可以构建逼真的职业模拟环境,用于评估人才并直接输送给企业。 这些想法真的能获得风险投资吗?…
Meta 的超级智能实验室发布首个公开模型 Muse Spark
Meta 宣称其基准测试表现强劲,但也承认在智能体与编程系统方面仍存在“性能差距”。 Meta 于周三宣布推出 Spark,这是 Muse 系列中的首个 AI 模型,公司称其代表了“对我们 AI 工作从底层进行的全面重构”。 Muse Spark 是 Meta 超级智能实验室发布的首个成果。该实验室成立不到一年,其宏大的目标是“为每个人实现个人超级智能的承诺”。这一发布也标志着 Meta 与此前开源 Llama 模型系列的彻底分道扬镳;该系列无论在用户反馈还是独立大语言模型排名中表现都较为平平。尽管 Spark 将是一个专有模型,Meta 创始人兼 CEO 马克·扎克伯格在 Threads 上发文表示,Muse 系列未来“将包括新的开源模型”。 Meta 表示,Muse Spark 将利用来自 Instagram、Facebook 和 Threads 等平台上的内容,类似于 xAI 的 Grok 与 X 平台内容的整合方式。目前,这意味着 Muse Spark 可以链接到与你查询的位置或热门话题相关的公开帖子。例如,未来这一能力将扩展为“引用推荐内容以及人们分享的内容”的新功能,并将“Reels、照片和帖子直接编织进回答中,同时标注内容创作者来源”。 思考与压缩 Meta 表示,Muse Spark 的“深度思考”(Contemplation)模式“在相当延迟下实现更优性能”。 在一篇随 Spark 发布的技术性博客中,Meta 列出了如今常见的一系列 AI…
哈萨比斯敦促谷歌尽快完成这笔收购
在12月底,一支谷歌团队乘坐湾流公务机飞抵伦敦,并直接前往DeepMind的办公室。来访者被带入一间会议室,观看了一系列新的演示。谷歌传奇工程负责人Jeff Dean提出要检查驱动Atari系统的代码。在他看来,仅仅展示演示远远不够,因为演示是可以被伪造的,他希望真正“打开机器”,确认背后确实有真实的技术引擎在运作。 “那是一个跨越卢比孔河的时刻,”哈萨比斯后来回忆道,“世界上最大、最强的公司可以看到你所有的研究。如果你在那之后不达成交易,你就会被压垮。这对我们来说是一次高风险的赌注。” 最终,Dean对代码表示认可。但接下来的问题是:谷歌愿意为此付出多少? DeepMind当时没有收入,其核心资产就是团队本身。谷歌的收购团队有一套评估此类“人才收购”(acquihire)的标准方法。“我们有一个按工程师计价的模型,”谷歌首席谈判代表Don Harrison后来回忆说。 Harrison估算DeepMind大约拥有30到40位顶尖技术人才。严格来说,他们并不是工程师,而是科学家。粗略计算,每个人的价值大约在1000万美元左右。作为一位曾参与谷歌上市的强硬加拿大律师,Harrison在过往数十笔交易中几乎从未遇到真正的阻力。 但这一次不同。哈萨比斯和苏莱曼强烈反对这一估值,并提出了一个大约高出一倍的价格。 “所有人当时都紧张到胃不舒服,”Harrison后来这样形容。就连Jeff Dean也认为DeepMind的要价偏高。 然而,价格并不是唯一的争议点。哈萨比斯坚持团队必须继续留在伦敦,同时他还要求对DeepMind技术的使用进行限制,例如禁止军事用途。此外,他还要求设立一个伦理与安全审查委员会,其中包括DeepMind创始人以及外部权威人士,以此削弱谷歌对该技术的完全控制权。 “对我来说,这些条件是个大问题,”Harrison回忆道,“我需要向董事会推销这笔交易,而它不仅仅关乎价格,还涉及一种会削弱我们对这个昂贵资产控制权的结构。” 最终,谷歌之所以接受这些条件,很大程度上是因为对哈萨比斯个人的信任。“如果不是我们完全相信Demis代表着我们AI战略的未来,我们绝不可能接受这样的交易结构,”Harrison后来表示。 2014年1月底,谷歌以6.5亿美元收购了DeepMind。以今天的标准来看,这笔交易堪称便宜。但对哈萨比斯来说,真正的回报出现在接下来的十年中——谷歌向DeepMind的研究投入了数十亿美元。他从青少年时期就怀抱的“超级智能”梦想,也由此进入了全面加速的发展阶段。