“周末属于哲学。”——@ramahluwalia
Ram说得对。让我们暂时离开芯片规格表,从更宏观的角度看看我们到底正在见证什么。
本周,Andrej Karpathy发了一条推文,让我震惊:
“我从未觉得自己在编程领域如此落后。这个职业正在被彻底重构,程序员能贡献的部分越来越稀疏、零碎。如果我能正确地把现有工具串联起来,我的效率至少能提高10倍。”
这可是Karpathy——打造特斯拉自动驾驶系统的人,仅两个月前他还在Dwarkesh的播客上对现有模型持怀疑态度。如今他却说自己“跟不上了”。
发生了什么变化?推理层的能力突破了关键门槛——而且还将迎来更大的飞跃。
同一周,《电子时报》爆料:英伟达(NVIDIA)已向三星、SK海力士、和美光下达16层堆叠HBM的交付订单,计划在2026年第四季度投入量产。这不是研究阶段,而是真实的生产计划。
这两个信号其实是同一个故事的两面。16层HBM、3D堆叠SRAM、英伟达收购Groq的200亿美元授权交易——这些构成了让Karpathy“提升10倍威力”的基础设施。而这也揭示了:AI芯片之战,或许已经结束。
为什么AI正在“饥饿”——记忆的瓶颈
AI模型的增长速度远快于数据供给能力。
例如,Llama 3(700亿参数)光是权重就需140GB内存;若使用128K上下文窗口,每个用户的KV缓存需要40GB。并发10个用户?光缓存就400GB。
当上下文扩展至100万tokens时(类似Gemini级模型),单个用户的KV缓存达到约312GB。服务100个用户意味着31TB内存需求。
GPT-4估计有1.76万亿参数,FP16格式需约3.5TB内存;到2028年,10万亿参数模型将至少需要5TB。
99%空转问题
AI推理的秘密是——价值4万美元的H100在解码阶段利用率不到1%。
原因在于算力与带宽的不匹配。
H100拥有990 TFLOPS计算力和3.35 TB/s带宽,设计目标是295 FLOPs/字节。
但推理解码时,每生成一个token都要从HBM中加载整个模型权重,只执行约2 FLOPs/字节,然后GPU就在等待内存。
训练阶段能达到百倍以上的算术强度,但推理阶段是串行的,核心单元大多在空转。
这就是“记忆墙”——也是训练与推理在架构上必须分离的根本原因。
HBM vs SRAM:物理极限
两种存储的取舍如下:
HBM(高带宽内存):容量大(80 GB → 192 GB → 1 TB 预计2027年)、延迟高(100–150 ns),适合训练与大模型权重。
SRAM(片上静态存储):容量小(50 MB → 230 MB),但延迟极低(0.5–2 ns),适合低延迟推理。
问题在于:算力每两年提升约750倍,而内存带宽仅提升1.6倍。结果是,从V100到H100,计算与带宽比翻倍,使GPU在推理任务上越来越“力不从心”。
关键拼图
1️⃣ 16层HBM之战
英伟达要求在JEDEC 775 μm封装高度内堆叠16层DRAM。
这意味着晶圆要薄至30 μm,层间键合小于10 μm,热管理几乎没有工业先例。
三星、SK海力士、美光正拼命攻关。胜者将在2028年前占据500亿美元年营收市场。
2️⃣ SRAM扩展的物理极限
SRAM密度几乎停滞,N3E与N2制程提升有限。
Groq的LPU通过230 MB SRAM实现80 TB/s内部带宽,在Llama 3.3 70B上每秒生成276 tokens(GPU仅60–100),但要容纳整个模型需576颗芯片、8个机柜。
3️⃣ 英伟达收购Groq的真正意义
英伟达并非买芯片,而是买验证。Groq证明SRAM中心、确定性架构在低批量推理中具优势。英伟达正将其思想吸收进路线图。
4️⃣ Pouladian的“作弊码”
未来架构“Feynman”(2028)将采用3D堆叠SRAM与HBM混合层级。
计算芯片基于TSMC A16背面供电技术;SRAM层使用廉价成熟节点,通过混合键合垂直堆叠;HBM层提供训练所需容量。
结果是:HBM负责权重,SRAM负责低延迟解码——两全其美。
路线图
2025–2026:HBM3E与12层HBM4量产,B200 GPU具192 GB、8 TB/s带宽。
2026–2027:16层HBM4验证并交付。
2027:Rubin Ultra实现1 TB HBM4E、32 TB/s带宽。
2028+:Feynman登场——A16计算+堆叠SRAM+16层HBM4,训练垄断保持,推理差距消除。
谁将出局
Groq:其确定性架构被验证正确,但当Feynman实现3D SRAM后,延迟优势将迅速缩小。
定制ASIC:Google TPU、Amazon Trainium、Cerebras等差异化空间收窄。
AMD:虽有MI300X 192 GB HBM3,但若Feynman实现更高带宽与容量,仅靠制程赶超已不够。
2030年的意义——哲学层面
我们正在构建一个让AI推理几乎无限、边际成本趋零的基础层。
当Feynman具备TB级可寻址内存与亚毫秒响应时,瓶颈将从“能否运行模型”转变为“我们要问它什么”。
Karpathy感到落后,是因为能力的增长速度超出了我们理解与使用的速度。
Jim Fan也表达了焦虑:硬件的进步远超软件迭代能力。
视频世界模型将成为机器人学习的核心——但这类模型对存储需求极为庞大。
16层HBM与堆叠SRAM不仅为聊天模型服务,更是“物理智能”的基础。
马斯克更直接地说:
“将特斯拉使命从‘可持续的丰裕(Sustainable Abundance)’改为‘惊人的丰裕(Amazing Abundance)’。”
他预言未来10–20年内“普遍高收入”将取代“基本收入”,人类不再为生存而工作。
但实现这种丰裕的前提是:AI必须能运行。没有足够的内存基础设施,丰裕只是一句口号。
集中化与民主化并存
英伟达正以极快速度构建AI基础设施,几乎垄断整个堆栈。到2030年,“AI基础设施”可能等同于“NVIDIA”。
然而,这也可能像晶体管之于Intel、互联网之于Google:技术实现了普惠,但价值集中于少数平台。
哲学上的新奇在于速度——以往的基础设施革命(铁路、电力、互联网)都耗时数十年,而英伟达的AI基础设施建设压缩在短短五年内。
因此,2030年的问题已不是“我们能否拥有充足AI推理能力”,而是“我们将用它创造什么”,以及——
当智能的限制不再是硅,而是想象力时,我们是否准备好了?
Karpathy并未落后——他只是最早意识到,地面正在加速移动。
是时候加速前进了!