微软与Ubiquant的研究团队又有新突破!这次他们带来了一款全新的基于规则的强化学习框架——Logic-RL,能够通过训练逻辑谜题,自然习得类似DeepSeek-R1的推理模式,让大模型的逻辑能力更上一层楼。
大模型的推理能力,还能怎么提升?
近年来,大语言模型(LLM)在后训练阶段取得了巨大进展,比如DeepSeek-R1、Kimi-K1.5和OpenAI-o1,它们的推理能力越来越强。然而,DeepSeek-R1虽然开放了模型权重,但却没有提供训练代码和数据集细节,这让人们对如何在小模型上扩展推理能力、如何构建最佳训练数据结构、以及如何可靠地复现推理方法充满疑问。
传统数学数据集(如GSM8K、Omini-MATH)在难度和逻辑深度上不够稳定,导致实验控制变得困难。因此,研究人员开始意识到,需要针对性的数据集,能够控制复杂度,以便更好地研究推理能力的涌现现象。
目前,大模型推理能力的提升主要依赖以下技术:
- Chain-of-Thought(CoT):将复杂问题拆解成易处理的小步骤,提高模型的推理连贯性。
- 蒙特卡洛树搜索(MCTS):AlphaGo使用的关键技术,可用于模型规划,平衡探索与利用。
- 后训练优化:通过强化学习(RL)或额外微调,让模型的推理更强。
- Direct Preference Optimization(DPO)
- Proximal Policy Optimization(PPO)
- Group Relative Policy Optimization(GRPO)
- REINFORCE++
这些方法不断推动模型推理能力的进化,而Logic-RL正是基于RL的一项重大突破。
Logic-RL:如何让AI像人一样解逻辑题?
微软和Ubiquant团队开发的Logic-RL,是一种基于规则的强化学习(RL)框架,能让模型通过逻辑训练习得类似DeepSeek-R1的推理能力。
它采用REINFORCE++算法,并参考了DeepSeek-R1的奖励机制进行后训练。随着训练的深入,模型会自动分配更多计算步骤给推理,让生成的token数量从几百扩展到上千,从而形成更深入的思考过程。
实验数据令人惊喜:
- 仅用5000道逻辑谜题训练,7B模型就在跨领域测试中表现惊人
- 在AIME数学竞赛数据集上提升125%,在AMC竞赛数据集上提升38%
- 这表明,RL训练出的推理能力是通用的,不仅限于特定的数学题型
然而,研究过程中也遇到了一些有趣的挑战。例如,Qwen2.5-Math-7B的格式问题,它在训练过程中总是喜欢输出Python代码块,而不是严格按照格式要求生成答案。此外,研究团队对比测试了Qwen2.5-7B-Base和Qwen2.5-7B-Instruct,结果发现两者在RL训练时的表现几乎一致,包括验证准确率、响应长度增长曲线和奖励曲线。
REINFORCE++ vs PPO vs GRPO:谁才是最优解?
实验还对比了三种强化学习算法在推理任务上的表现:
- PPO(近端策略优化):在准确率和奖励分数上表现优异,但训练速度比REINFORCE++慢138%。
- REINFORCE++:稳定性最佳,在训练效率和性能提升方面表现优越,几乎在所有指标上全面胜出。
- GRPO:表现最差,在多个维度上都落后于前两者。
此外,该模型在超出分布(Super OOD)泛化能力上的表现也非常亮眼,AIME数据集上提升125%,AMC数据集上提升38%,表明强化学习不仅能提升模型在训练数据上的表现,还能帮助它形成可迁移的推理策略,适应更复杂的问题。


这项研究的意义?
Logic-RL证明了基于规则的强化学习框架能够培养复杂推理能力,这对AI的发展至关重要。然而,研究人员也意识到,当前的研究基于相对小规模的逻辑数据集,这可能会限制其在真实数学或编程任务中的适用性。因此,未来的研究方向可能包括:
- 扩展到更复杂、更多样化的数据集,验证在不同领域的适应能力。
- 优化逻辑推理框架,例如结合层次化架构或动态计算资源分配,提升推理效率。
- 开放研究项目,让更多研究人员参与,共同推进AI推理能力的发展。
总的来说,Logic-RL为AI推理能力的进化提供了一条新路径,或许未来的LLM不仅能解数学题,还能像人一样推理和思考!