QwQ-32B：强化学习的力量正在崛起！

Qwen 团队近日正式推出 QwQ-32B，这款拥有 320 亿参数的 AI 模型，在推理能力上竟然能媲美 DeepSeek-R1——这款庞然大物拥有 6710 亿参数（其中 370 亿被激活）。这一成就充分展示了强化学习（RL）的强大潜力，尤其是在大规模基础模型的智能进化过程中，RL 的作用正在逐步显现。

研究表明，相较于传统的预训练和后训练方法，强化学习的扩展不仅能优化模型性能，还能极大地提升其推理能力。例如，DeepSeek R1 通过冷启动数据和多阶段训练，成功实现了深度思考和复杂推理能力。而 QwQ-32B 也采用类似策略，并在此基础上进一步整合了智能代理（agent）功能，使其能够结合工具、接收环境反馈并进行动态调整。换句话说，这不仅仅是强化学习的胜利，更是迈向通用人工智能（AGI）的重要一步。

性能表现如何？

QwQ-32B 在多个基准测试中展现了卓越的数学推理、代码能力和通用问题解决能力，并与 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原版 DeepSeek-R1 进行了对比。

值得注意的是，QwQ-32B 采用了全新的 RL 训练策略：

初始阶段，主要针对数学和编程任务进行强化学习。不同于传统的奖励模型，研究团队使用了数学求解的准确性验证器，确保答案正确，同时通过代码执行服务器来检验生成的代码是否能通过测试用例。这种基于结果的奖励机制，使得 QwQ-32B 在这两个关键领域不断进步。
第二阶段，加入了基于通用奖励模型和规则验证器的 RL 训练，以提升 QwQ-32B 在指令遵循、人类偏好对齐和智能代理任务上的表现，而不会牺牲其在数学和编程任务上的能力。

如何使用 QwQ-32B？

想要上手 QwQ-32B？好消息是，这款模型已在 Hugging Face 和 ModelScope 上开放权重，使用 Apache 2.0 许可证。此外，用户还可以通过 Qwen Chat 直接访问它。

Hugging Face Transformers 示例代码

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/QwQ-32B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "How many r's are in the word \"strawberry\""
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Alibaba Cloud DashScope API 示例

如果用户希望通过 API 访问 QwQ-32B，可以使用阿里云 DashScope 提供的接口。

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

completion = client.chat.completions.create(
    model="qwq-32b",
    messages=[
        {"role": "user", "content": "Which is larger, 9.9 or 9.11?"}
    ],
    stream=True
)

for chunk in completion:
    if not chunk.choices:
        print("\nUsage:")
        print(chunk.usage)
    else:
        delta = chunk.choices[0].delta
        print(delta.content, end='', flush=True)

未来展望

QwQ-32B 只是 Qwen 团队在强化学习领域迈出的第一步。在这次探索中，不仅见证了 RL 在扩展推理能力上的惊人潜力，也让团队更加坚定地朝着通用人工智能（AGI）的目标前进。未来，他们计划结合更强大的基础模型与大规模计算资源驱动的 RL，进一步提升 AI 的推理能力。

此外，Qwen 团队还在积极探索智能代理与 RL 的深度融合，以实现更长远的推理能力，让 AI 在不同环境下适应并做出更精准的决策。换句话说，这不仅仅是 AI 算力的升级，更是智能进化的全新篇章。

Subscribe 订阅

性能表现如何？

如何使用 QwQ-32B？

Hugging Face Transformers 示例代码

Alibaba Cloud DashScope API 示例

未来展望