背景:扩散模型推理的挑战
生成模型近年来在语言、视觉和生物学领域引发了巨大变革。尽管通过增加数据量、计算资源和模型规模,这些模型在训练阶段取得了显著进步,但推理阶段的扩展能力却面临诸多限制。以扩散模型为例,这类模型通过降噪过程生成连续数据(如图像、音频和视频),但简单增加降噪步数(NFE)的传统方法并未显著提升性能,甚至可能导致计算资源浪费。
目前,多种方法被尝试用来改进生成模型的推理性能。例如,大型语言模型(LLM)在测试时通过改进搜索算法、验证方法和计算分配策略取得了成功。但在扩散模型领域,现有方法主要集中于训练阶段优化,如微调、强化学习和直接偏好优化等,而推理阶段的深入扩展方案尚属稀缺。

谷歌框架:推理阶段的新方法论
NYU、MIT 和谷歌的研究团队提出了一种全新的推理扩展框架,摆脱了简单增加降噪步数的思路,通过创新的搜索机制提升生成质量。新框架的核心是通过更优噪声候选的发现和验证算法,改进扩散模型的降噪过程,并提供灵活的组件组合,适配多种应用场景。
具体实现中,该框架采用了针对 ImageNet 的类条件生成,使用预训练的 SiT-XL 模型(256 × 256 分辨率)和二阶 Heun 采样器。降噪步数固定为 250 步,同时探索额外的 NFE 用于搜索操作。搜索机制采用随机搜索算法和“最佳 N 次策略”(Best-of-N),选取最优噪声候选,验证阶段则引入了两个 Oracle 验证器:Inception 分数(IS)和 Fréchet Inception 距离(FID)。IS 基于 InceptionV3 模型的分类概率最高值,而 FID 通过最小化与预先计算的 ImageNet 特征分布的差异来评估。
框架测试结果与影响
测试结果显示,这一框架在不同基准上的性能表现突出。在 DrawBench(涵盖多样化文本提示)中,基于 LLM Grader 的评估表明,使用不同验证器的搜索机制能够显著提升样本质量。尤其是 ImageReward 和验证器集成(Verifier Ensemble),在多项指标上均表现优异,展现了细腻的评估能力和与人类偏好的高度一致性。
在 T2I-CompBench 的测试中,优化配置更加偏向文本提示的准确性,而非视觉质量。ImageReward 表现最佳,而美学评分(Aesthetic Scores)影响较小甚至为负,CLIP 则提供了适度改进。这些结果表明,不同的验证器在特定任务上的表现具有显著差异。
展望:开启推理优化新方向
研究团队认为,这一框架通过战略性搜索机制实现了推理阶段的显著扩展,为生成模型在不同规模和任务上的性能提升提供了新的思路。同时,研究还揭示了验证器的内在偏差,强调了开发任务特定验证方法的重要性。
这一研究成果为扩散模型的推理优化树立了新标杆,也为未来探索更高效的验证系统和针对特定任务的优化方法提供了广阔空间。无论在视觉生成还是更广泛的生成式 AI 应用中,这一框架都将发挥重要作用。