Qwen 团队近日正式推出 QwQ-32B,这款拥有 320 亿参数的 AI 模型,在推理能力上竟然能媲美 DeepSeek-R1——这款庞然大物拥有 6710 亿参数(其中 370 亿被激活)。这一成就充分展示了强化学习(RL)的强大潜力,尤其是在大规模基础模型的智能进化过程中,RL 的作用正在逐步显现。
研究表明,相较于传统的预训练和后训练方法,强化学习的扩展不仅能优化模型性能,还能极大地提升其推理能力。例如,DeepSeek R1 通过冷启动数据和多阶段训练,成功实现了深度思考和复杂推理能力。而 QwQ-32B 也采用类似策略,并在此基础上进一步整合了智能代理(agent)功能,使其能够结合工具、接收环境反馈并进行动态调整。换句话说,这不仅仅是强化学习的胜利,更是迈向通用人工智能(AGI)的重要一步。
性能表现如何?
QwQ-32B 在多个基准测试中展现了卓越的数学推理、代码能力和通用问题解决能力,并与 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原版 DeepSeek-R1 进行了对比。
值得注意的是,QwQ-32B 采用了全新的 RL 训练策略:
- 初始阶段,主要针对数学和编程任务进行强化学习。不同于传统的奖励模型,研究团队使用了数学求解的准确性验证器,确保答案正确,同时通过代码执行服务器来检验生成的代码是否能通过测试用例。这种基于结果的奖励机制,使得 QwQ-32B 在这两个关键领域不断进步。
- 第二阶段,加入了基于通用奖励模型和规则验证器的 RL 训练,以提升 QwQ-32B 在指令遵循、人类偏好对齐和智能代理任务上的表现,而不会牺牲其在数学和编程任务上的能力。
如何使用 QwQ-32B?
想要上手 QwQ-32B?好消息是,这款模型已在 Hugging Face 和 ModelScope 上开放权重,使用 Apache 2.0 许可证。此外,用户还可以通过 Qwen Chat 直接访问它。
Hugging Face Transformers 示例代码
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/QwQ-32B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many r's are in the word \"strawberry\""
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768
)
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
Alibaba Cloud DashScope API 示例
如果用户希望通过 API 访问 QwQ-32B,可以使用阿里云 DashScope 提供的接口。
from openai import OpenAI
import os
client = OpenAI(
api_key=os.getenv("DASHSCOPE_API_KEY"),
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)
completion = client.chat.completions.create(
model="qwq-32b",
messages=[
{"role": "user", "content": "Which is larger, 9.9 or 9.11?"}
],
stream=True
)
for chunk in completion:
if not chunk.choices:
print("\nUsage:")
print(chunk.usage)
else:
delta = chunk.choices[0].delta
print(delta.content, end='', flush=True)
未来展望
QwQ-32B 只是 Qwen 团队在强化学习领域迈出的第一步。在这次探索中,不仅见证了 RL 在扩展推理能力上的惊人潜力,也让团队更加坚定地朝着通用人工智能(AGI)的目标前进。未来,他们计划结合更强大的基础模型与大规模计算资源驱动的 RL,进一步提升 AI 的推理能力。
此外,Qwen 团队还在积极探索智能代理与 RL 的深度融合,以实现更长远的推理能力,让 AI 在不同环境下适应并做出更精准的决策。换句话说,这不仅仅是 AI 算力的升级,更是智能进化的全新篇章。