OpenAI 于 2025 年 4 月 17 日正式发布了最新的 o 系列模型 —— o3 与 o4-mini,这是迄今为止最强大的推理模型,标志着 ChatGPT 在智能与实用性方面迈出了飞跃性的进步。这两个模型具备更长时间的“思考”能力,并首次实现了在 ChatGPT 中对所有工具的智能整合使用,包括网页搜索、代码执行(Python)、图像生成与分析、文件阅读等功能。这种“代理式”工具调用(agentic tool use)不仅让模型能根据任务自动决定是否、何时、如何使用工具,还极大提升了多步骤问题的解答质量。
在最新模型中,用户不再局限于被动提问,而是可以让模型作为思维伙伴深入展开分析、构建复杂的解决方案或执行任务流程。这意味着,从学术研究到商业咨询,从数学建模到图表生成,ChatGPT 的能力边界被重新定义。
o3:顶级推理模型,刷新多个基准测试记录
OpenAI o3 是目前最强的推理模型,尤其在代码、数学、科学和图像理解等任务中表现出色,刷新了包括 Codeforces、SWE-bench 和 MMMU 等多个权威基准测试的记录。o3 在面对需要多步骤推理的复杂问题时展现出极高的分析能力,外部专家评估显示其重大错误率比 o1 低 20%,在生物学、工程、数学等领域尤其突出。该模型的独特优势在于,其具备严谨的假设推导能力,并能自我反驳、调整逻辑路径。
o3 还具备强大的视觉推理能力,能够结合图表、手绘草图、照片等图像信息进行逻辑分析。例如,在解决科研类问题、工程结构分析或复杂图像描述任务时,其表现已超过 GPT‑4 系列,并成为 OpenAI 迄今最强的多模态模型之一。
o4-mini:轻量级推理模型,性能与效率兼备
o4-mini 是一款为速度与成本优化的轻量推理模型,但其性能依然远超同级别产品。在 2025 年 AIME 数学竞赛的测试中,o4-mini 在接入 Python 工具后达成 99.5% 的 pass@1,通过率几乎满分,远超前代模型。在 AIME 2024 和 2025 的无工具测试中,o4-mini 也刷新了现有纪录。
外部专家评估指出,o4-mini 在非 STEM 类任务、数据科学、编程等领域同样表现优异,且由于其轻量化设计,适合高并发、大批量问答的应用场景。此外,模型的指令遵循能力也大幅提升,结合网页引用、上下文记忆与个性化生成,用户体验更自然流畅。
主要技术突破与评估表现
模型 | AIME 2025 成绩(无工具) | Codeforces(含工具)ELO | MathVista | SWE-Bench |
---|---|---|---|---|
o1 | 79.2% | 1891 | 55.1% | 64.4%(整体) |
o3 | 88.9% | 2706 | 78.6% | 81.3%(整体) |
o4-mini | 92.7% | 2719 | 72.0% | 68.9%(整体) |
在 CharXiv、GPQA、MMMU 等涉及图像与科学图表推理的高阶测试中,o3 和 o4-mini 均实现显著进步,表现优于 GPT-4 及先前的 o1 系列。
图像+文本联合推理:新一代多模态能力
o3 与 o4-mini 能够“将图像纳入思维链条”,不仅识别图像,还能与文字信息融合分析。例如,用户可上传模糊的白板照片、手绘图表或教材中的复杂图形,模型能识别结构并进行逻辑推理。结合工具使用,模型还能在图像上实时放大、旋转、注释,实现前所未有的图像交互体验。
安全性与负责任 AI
随着模型能力的跃升,OpenAI 在 o3 与 o4-mini 的安全策略上也进行了全面重构,尤其在生物风险、恶意代码、越狱防护等方面引入更严密的拒绝策略。经 OpenAI 内部最严苛的红队测试验证,这两款模型在生物、网络安全与 AI 自我优化等三大能力维度均未超过“高风险”门槛。
此外,OpenAI 引入一套新的 LLM 安全监测器,可对模型输出中的潜在风险行为进行高置信度识别,成功检测出 99% 以上的敏感对话。
应用:Codex CLI 与开发者支持计划
OpenAI 同时宣布推出全新终端工具 Codex CLI,使开发者能在本地命令行中运行推理模型,配合截图、草图、代码文件进行智能分析。Codex CLI 已在 GitHub 开源,并开启 100 万美元支持计划,为开发者提供高达 2.5 万美元的 API 额度资助创新项目。
获取与使用
- ChatGPT Plus、Pro 与 Team 用户:即日起可使用 o3、o4-mini 与 o4-mini-high,原有 o1、o3-mini 被替代。
- ChatGPT Enterprise 与 Edu 用户:一周内开放。
- 免费用户:可通过选择“Think”选项试用 o4-mini。
- 开发者:可通过 Chat Completions API 与 Responses API 使用新模型(部分需组织验证)。
展望未来
OpenAI 表示,未来将进一步融合 GPT 系列的对话能力与 o 系列的推理深度,打造既能自然交流又具备工具智能调用能力的“统一模型平台”。即将上线的 o3-pro 将支持完整工具链,面向研究人员与企业应用场景。
从深度推理到多模态理解,再到智能工具操作,o3 与 o4-mini 不仅是技术进步的标志,更是 AI 向“类代理体”迈进的重要一步。