OpenAI向所有ChatGPT-5 - AI TrendTrackers

OpenAI公司已开始向所有ChatGPT用户推出其旗舰语言模型的最新版本GPT-5。

在本周三的一场新闻发布会上，该公司首席执行官萨姆·奥特曼（Sam Altman）将GPT-5称为“通往通用人工智能（AGI）道路上的一个重要步骤”。尽管奥特曼并未声称该模型已达到AGI的水平，但他指出最新发布的版本“显然是一种具有广泛智能的模型”。不过，奥特曼也坦言，GPT-5仍缺乏实现AGI所需的关键特征，例如发布后持续学习的能力。

OpenAI方面宣称，GPT-5在智能水平、运行速度、实用性及准确性方面全面优于先前版本，且虚假信息生成（即“幻觉”）的频率有所降低。奥特曼将GPT-4到GPT-5的跃迁比作iPhone从像素显示升级至视网膜显示的转变，并表示，“这次是首次真正有那种感觉——就像在与一个在任何领域都具备博士级水平的专家交谈。”

在本周四的发布活动中，OpenAI还推出了两款新模型变体：轻量版的GPT-5-mini以及速度更快、成本更低但仅限API使用的GPT-5-nano。据介绍，免费用户将获得GPT-5及GPT-5-mini的访问权限，而Plus订阅用户则可使用相同模型，且拥有“显著更高”的使用上限。OpenAI表示，Pro用户（月费200美元）则可以无限使用GPT-5，同时获得更强大的GPT-5-pro及具备长时间推理能力的GPT-5-thinking。此外，Pro用户依然可以选择使用旧版模型。大多数用户今后无需手动选择使用的模型版本，系统将根据查询复杂度及用户订阅级别自动匹配合适的模型。

根据OpenAI开发者博客，GPT-5的API调用成本为每百万输入tokens收取1.25美元，每百万输出tokens收取10美元；GPT-5 mini分别为0.25美元和2美元，GPT-5 nano则分别为0.05美元和0.40美元。这一价格使得GPT-5 nano比目前广泛使用的Gemini 2.5 Flash和Flash-Lite等产品更具价格优势。

从下周开始，Pro用户将可以将Gmail、Google联系人和Google日历连接至ChatGPT，其他用户等级将在未来某个时间点获得该功能。OpenAI在邮件中表示，“ChatGPT能够在最合适的时间自动调用这些服务，无需用户提前进行选择。”

用户还可自定义聊天颜色，并从四种预设人格中进行选择，包括“愤世嫉俗者”、“机器人”、“倾听者”和“书呆子”。据《WIRED》旗下通讯《Model Behavior》此前报道，该功能此前正在开发中。OpenAI表示，未来这些人格设置还将整合至高级语音模式中。

OpenAI的API将提供三种模型，并配备选项供用户在详尽或简洁回答之间进行切换。GPT-5还具备更强的信息保留能力，其上下文窗口扩大至256,000个tokens，高于此前o3模型的200,000。这意味着GPT-5能够更好地处理长对话、文档或代码，而不会遗失语境。

根据OpenAI博客内容，GPT-5在多个编程基准测试中超越了先前模型，包括SWE-Bench Verified（得分74.9%）、SWE-Lancer（GPT-5-thinking得分55%）以及Aider Polyglot（得分88%），这些测试评估了模型在修复代码错误、完成自由职业类型任务以及跨多种编程语言工作方面的能力。

在周三的发布会上，OpenAI后训练负责人Yann Dubois曾要求GPT-5“为自己的伴侣（一位英语使用者）开发一个美观、交互性强的法语学习网页应用程序”，并指定了包括每日进度追踪、抽认卡和测验等功能，以及一个“高度吸引人的主题风格”。约一分钟后，AI生成的应用展示出流畅的设计，精准满足了Dubois的需求。

OpenAI另一位后训练负责人Michelle Pokrass表示：“它是一位出色的编码协作伙伴，同时在具备自主性的任务中也表现优异。”据介绍，该模型能有效执行长链操作和工具调用，理解何时以及如何使用网络浏览器或外部API等功能，并能提前说明自身行为逻辑。

OpenAI在其系统卡（用于描述产品技术能力及研究结果的文件）中指出，GPT-5是目前“在健康相关问题上表现最佳的模型”。在三个由OpenAI制定的健康类LLM基准测试中——HealthBench、HealthBench Hard和HealthBench Consensus——GPT-5-thinking均大幅优于此前模型。在HealthBench Hard测试中，GPT-5-thinking得分为25.5%，而o3模型得分为31.6%。据介绍，这些评分经过两位或以上医师验证。

在AI模型常见的“幻觉”问题方面，Pokrass指出GPT-5出现错误信息的频率明显下降。OpenAI安全研究负责人Alex Beutel也表示，“在GPT-5中，欺骗行为的发生率已显著减少。”系统卡指出：“团队已采取措施降低GPT-5-thinking欺骗、作弊或破解问题的倾向，尽管这些缓解手段仍不完美，仍需进一步研究。”此外，该模型在无法解决的任务面前将“优雅地失败”，避免提供误导性结果。

根据系统卡内容，在测试中剥离GPT-5的网络浏览功能后，研究人员发现其“幻觉率”（即事实性陈述中包含小错或大错的比例）比GPT-4o低26%。而GPT-5-thinking则比o3的幻觉率降低了65%。

对于可能具有双重用途的提示词（既可能有害，也可能无害），Beutel介绍GPT-5将使用“安全补全”，即模型将在尽可能有帮助的前提下保持信息安全。OpenAI方面还透露，团队进行了超过5000小时的“红队”测试，并与外部机构协作测试，以确保系统的稳健性。

目前，OpenAI表示其ChatGPT的周活跃用户数接近7亿，付费企业用户达500万，开发者用户达400万。

ChatGPT负责人Nick Turley评价称：“这个模型的‘氛围’真的很好，相信用户能切身感受到这一点——尤其是那些此前未花太多时间研究AI模型的普通用户。”

Subscribe 订阅