观看视频B站链接:【年尾特献: AI的规模定律(scaling law) 和芯片业达到瓶颈了吗?】 https://www.bilibili.com/video/BV1P6C8YgEay/
AI扩展法则的争议与未来:数据、算力与推理的新维度
关于AI扩展法则(Scaling Laws)的怀疑、恐惧和不确定性正在加剧。一些自封的AI产业观察者抓住任何看跌的叙事,宣称扩展法则已经触顶,无法再驱动大型语言模型(LLM)的快速进步。媒体也加入了这场狂欢,基于一些模糊的泄露信息,渲染模型因所谓性能不足而无法持续扩展的说法。此外,一些批评者指出,许多基准测试已经饱和,新模型在这些测试中的表现缺乏显著进展。而另一些人则认为,训练数据即将耗尽,硬件扩展也遇到了瓶颈。
但事实是,大型AI实验室和超级数据中心的扩建与资本支出已经说明了一切。从亚马逊向Anthropic提供40万颗Trainium2芯片,总计约65亿美元的IT和数据中心投资,到Meta在2026年于路易斯安那州规划的2GW数据中心,再到OpenAI和谷歌为突破单一数据中心供电限制而推行的多数据中心训练计划,关键决策者依然对扩展法则抱有坚定信念。
扩展并未停滞,只是转向了新的维度。
OpenAI的o1模型证明了推理模型的潜力,开启了一个全新的扩展领域。而除了预训练(Pre-training),其他如合成数据生成、近端策略优化(PPO)、功能验证器等技术也在推动模型性能的提升。AI的开发过程正在快速演变,单一的预训练不再是扩展的唯一关注点。
衡量AI进展的基准测试也在转变。 旧有的基准已难以反映模型在复杂任务中的表现,新的测试更具挑战性,更贴近实际应用场景。
类比摩尔定律:AI扩展法则的持续演变
如今关于AI扩展法则的讨论,与多年前关于摩尔定律的争论有些类似。当处理器时钟频率的提升遇到瓶颈时,行业转向了多核架构和高带宽网络等方向来持续提升计算性能。
在AI领域,当训练数据和硬件扩展遇到瓶颈时,新的维度(例如多数据中心训练和推理时计算)成为扩展的新方向。AI行业将继续叠加多个“扩展法则”,实现持续增长,正如摩尔定律在过去50年中所展现的那样。
数据瓶颈与合成数据的崛起
随着AI模型参数量的爆炸式增长,高质量训练数据逐渐成为瓶颈。
- 数据不足导致模型泛化性能下降,而过多数据又容易导致过度训练,浪费计算资源。
- 合成数据成为解决这一问题的重要手段,可以大规模、高质量地生成特定领域的数据集。
在实际应用中,合成数据通过以下几种方式被广泛使用:
- 拒绝采样(Rejection Sampling): 过滤掉质量较差的合成数据,保留通过测试的样本。
- 模型判别(Judgement by Model): 使用更强大的模型对生成的数据进行判断,确保数据质量。
- 长上下文数据集(Long Context Datasets): 使用模型生成长文本数据,帮助模型在长上下文中更好地进行推理。
以Anthropic为例,Claude 3.5 Opus 在训练后并未直接发布,而是用于生成高质量的合成数据,并进一步优化Claude 3.5 Sonnet的性能。这种闭环迭代有效提升了模型性能,同时控制了推理成本。
强化学习(Reinforcement Learning, RL)的关键作用
强化学习(RL)是AI模型对齐(Alignment)和性能优化的重要手段。
- 近端策略优化(PPO): 是主流的强化学习算法,用于迭代优化模型的策略函数。
- 基于人类反馈的强化学习(RLHF): 通过人类反馈数据训练奖励模型,优化模型的行为。
- 基于AI反馈的强化学习(RLAIF): 使用AI生成的反馈替代人类反馈,显著提高训练效率和可扩展性。
特别是在推理模型(Reasoning Models)中,RL的作用尤为关键。通过强化学习,模型能够更可靠地生成链式推理(Chain of Thought, CoT),提高数学、科学等复杂问题的解决能力。
推理模型的四大要素:
- 生成器(Generator): 生成多个解决方案。
- 验证器(Verifier): 检查解决方案的正确性。
- 奖励模型(Reward Model): 对每个步骤进行评分。
- 强化学习优化器(PPO): 优化模型行为,确保推理链条的稳定性。
推理时间计算(Inference Time Compute)的扩展
推理时间计算是扩展法则的新维度。传统LLM在生成响应时,通常会连续生成token,而不会追踪中间步骤。而推理模型则不同,它们将响应分解为一系列推理步骤,在遇到错误时可以回溯并修正问题。
推理时间计算的扩展方法包括:
- 自一致性(Self-Consistency): 多次运行相同的提示,选择最常见的答案。
- 最佳采样(Best-of-N Sampling): 生成多个解决方案,使用验证器选择最佳答案。
- 蒙特卡洛搜索(Monte Carlo Rollouts): 从中间步骤生成多个路径,选择最佳路径进行推理。
随着更高效的推理系统(如GB200 NVL72)的推出,推理模型在推理链条长度和计算资源上的限制将逐渐被打破,性能将大幅提升。
未来方向:超越单一维度的扩展
AI扩展法则并未终结,只是转向了新的领域和维度:
- 合成数据将成为训练和优化模型的重要来源。
- 强化学习将持续提升模型的对齐性能。
- 推理时间计算将显著提高模型在复杂任务中的表现。
- 多数据中心训练将突破单一数据中心的物理限制,提供更强大的计算资源。
扩展的每一个新维度都将带来更多创新,推动AI技术的边界不断前行。
这场AI竞赛并未放缓,扩展法则依然生效。每一次质疑扩展法则的声音,都像是当年质疑摩尔定律的人一样,忽视了新技术和新维度的出现。未来已来,AI的每一步扩展,都将重塑人类科技的格局。