OpenAI o3 与 o4-mini - AI TrendTrackers

OpenAI 于 2025 年 4 月 17 日正式发布了最新的 o 系列模型 —— o3 与 o4-mini，这是迄今为止最强大的推理模型，标志着 ChatGPT 在智能与实用性方面迈出了飞跃性的进步。这两个模型具备更长时间的“思考”能力，并首次实现了在 ChatGPT 中对所有工具的智能整合使用，包括网页搜索、代码执行（Python）、图像生成与分析、文件阅读等功能。这种“代理式”工具调用（agentic tool use）不仅让模型能根据任务自动决定是否、何时、如何使用工具，还极大提升了多步骤问题的解答质量。

在最新模型中，用户不再局限于被动提问，而是可以让模型作为思维伙伴深入展开分析、构建复杂的解决方案或执行任务流程。这意味着，从学术研究到商业咨询，从数学建模到图表生成，ChatGPT 的能力边界被重新定义。

o3：顶级推理模型，刷新多个基准测试记录

OpenAI o3 是目前最强的推理模型，尤其在代码、数学、科学和图像理解等任务中表现出色，刷新了包括 Codeforces、SWE-bench 和 MMMU 等多个权威基准测试的记录。o3 在面对需要多步骤推理的复杂问题时展现出极高的分析能力，外部专家评估显示其重大错误率比 o1 低 20%，在生物学、工程、数学等领域尤其突出。该模型的独特优势在于，其具备严谨的假设推导能力，并能自我反驳、调整逻辑路径。

o3 还具备强大的视觉推理能力，能够结合图表、手绘草图、照片等图像信息进行逻辑分析。例如，在解决科研类问题、工程结构分析或复杂图像描述任务时，其表现已超过 GPT‑4 系列，并成为 OpenAI 迄今最强的多模态模型之一。

o4-mini：轻量级推理模型，性能与效率兼备

o4-mini 是一款为速度与成本优化的轻量推理模型，但其性能依然远超同级别产品。在 2025 年 AIME 数学竞赛的测试中，o4-mini 在接入 Python 工具后达成 99.5% 的 pass@1，通过率几乎满分，远超前代模型。在 AIME 2024 和 2025 的无工具测试中，o4-mini 也刷新了现有纪录。

外部专家评估指出，o4-mini 在非 STEM 类任务、数据科学、编程等领域同样表现优异，且由于其轻量化设计，适合高并发、大批量问答的应用场景。此外，模型的指令遵循能力也大幅提升，结合网页引用、上下文记忆与个性化生成，用户体验更自然流畅。

主要技术突破与评估表现

模型	AIME 2025 成绩（无工具）	Codeforces（含工具）ELO	MathVista	SWE-Bench
o1	79.2%	1891	55.1%	64.4%（整体）
o3	88.9%	2706	78.6%	81.3%（整体）
o4-mini	92.7%	2719	72.0%	68.9%（整体）

在 CharXiv、GPQA、MMMU 等涉及图像与科学图表推理的高阶测试中，o3 和 o4-mini 均实现显著进步，表现优于 GPT-4 及先前的 o1 系列。

图像+文本联合推理：新一代多模态能力

o3 与 o4-mini 能够“将图像纳入思维链条”，不仅识别图像，还能与文字信息融合分析。例如，用户可上传模糊的白板照片、手绘图表或教材中的复杂图形，模型能识别结构并进行逻辑推理。结合工具使用，模型还能在图像上实时放大、旋转、注释，实现前所未有的图像交互体验。

安全性与负责任 AI

随着模型能力的跃升，OpenAI 在 o3 与 o4-mini 的安全策略上也进行了全面重构，尤其在生物风险、恶意代码、越狱防护等方面引入更严密的拒绝策略。经 OpenAI 内部最严苛的红队测试验证，这两款模型在生物、网络安全与 AI 自我优化等三大能力维度均未超过“高风险”门槛。

此外，OpenAI 引入一套新的 LLM 安全监测器，可对模型输出中的潜在风险行为进行高置信度识别，成功检测出 99% 以上的敏感对话。

应用：Codex CLI 与开发者支持计划

OpenAI 同时宣布推出全新终端工具 Codex CLI，使开发者能在本地命令行中运行推理模型，配合截图、草图、代码文件进行智能分析。Codex CLI 已在 GitHub 开源，并开启 100 万美元支持计划，为开发者提供高达 2.5 万美元的 API 额度资助创新项目。

获取与使用

ChatGPT Plus、Pro 与 Team 用户：即日起可使用 o3、o4-mini 与 o4-mini-high，原有 o1、o3-mini 被替代。
ChatGPT Enterprise 与 Edu 用户：一周内开放。
免费用户：可通过选择“Think”选项试用 o4-mini。
开发者：可通过 Chat Completions API 与 Responses API 使用新模型（部分需组织验证）。

展望未来

OpenAI 表示，未来将进一步融合 GPT 系列的对话能力与 o 系列的推理深度，打造既能自然交流又具备工具智能调用能力的“统一模型平台”。即将上线的 o3-pro 将支持完整工具链，面向研究人员与企业应用场景。

从深度推理到多模态理解，再到智能工具操作，o3 与 o4-mini 不仅是技术进步的标志，更是 AI 向“类代理体”迈进的重要一步。

Subscribe 订阅