OpenAI公司已开始向所有ChatGPT用户推出其旗舰语言模型的最新版本GPT-5。
在本周三的一场新闻发布会上,该公司首席执行官萨姆·奥特曼(Sam Altman)将GPT-5称为“通往通用人工智能(AGI)道路上的一个重要步骤”。尽管奥特曼并未声称该模型已达到AGI的水平,但他指出最新发布的版本“显然是一种具有广泛智能的模型”。不过,奥特曼也坦言,GPT-5仍缺乏实现AGI所需的关键特征,例如发布后持续学习的能力。
OpenAI方面宣称,GPT-5在智能水平、运行速度、实用性及准确性方面全面优于先前版本,且虚假信息生成(即“幻觉”)的频率有所降低。奥特曼将GPT-4到GPT-5的跃迁比作iPhone从像素显示升级至视网膜显示的转变,并表示,“这次是首次真正有那种感觉——就像在与一个在任何领域都具备博士级水平的专家交谈。”
在本周四的发布活动中,OpenAI还推出了两款新模型变体:轻量版的GPT-5-mini以及速度更快、成本更低但仅限API使用的GPT-5-nano。据介绍,免费用户将获得GPT-5及GPT-5-mini的访问权限,而Plus订阅用户则可使用相同模型,且拥有“显著更高”的使用上限。OpenAI表示,Pro用户(月费200美元)则可以无限使用GPT-5,同时获得更强大的GPT-5-pro及具备长时间推理能力的GPT-5-thinking。此外,Pro用户依然可以选择使用旧版模型。大多数用户今后无需手动选择使用的模型版本,系统将根据查询复杂度及用户订阅级别自动匹配合适的模型。
根据OpenAI开发者博客,GPT-5的API调用成本为每百万输入tokens收取1.25美元,每百万输出tokens收取10美元;GPT-5 mini分别为0.25美元和2美元,GPT-5 nano则分别为0.05美元和0.40美元。这一价格使得GPT-5 nano比目前广泛使用的Gemini 2.5 Flash和Flash-Lite等产品更具价格优势。
从下周开始,Pro用户将可以将Gmail、Google联系人和Google日历连接至ChatGPT,其他用户等级将在未来某个时间点获得该功能。OpenAI在邮件中表示,“ChatGPT能够在最合适的时间自动调用这些服务,无需用户提前进行选择。”
用户还可自定义聊天颜色,并从四种预设人格中进行选择,包括“愤世嫉俗者”、“机器人”、“倾听者”和“书呆子”。据《WIRED》旗下通讯《Model Behavior》此前报道,该功能此前正在开发中。OpenAI表示,未来这些人格设置还将整合至高级语音模式中。
OpenAI的API将提供三种模型,并配备选项供用户在详尽或简洁回答之间进行切换。GPT-5还具备更强的信息保留能力,其上下文窗口扩大至256,000个tokens,高于此前o3模型的200,000。这意味着GPT-5能够更好地处理长对话、文档或代码,而不会遗失语境。
根据OpenAI博客内容,GPT-5在多个编程基准测试中超越了先前模型,包括SWE-Bench Verified(得分74.9%)、SWE-Lancer(GPT-5-thinking得分55%)以及Aider Polyglot(得分88%),这些测试评估了模型在修复代码错误、完成自由职业类型任务以及跨多种编程语言工作方面的能力。
在周三的发布会上,OpenAI后训练负责人Yann Dubois曾要求GPT-5“为自己的伴侣(一位英语使用者)开发一个美观、交互性强的法语学习网页应用程序”,并指定了包括每日进度追踪、抽认卡和测验等功能,以及一个“高度吸引人的主题风格”。约一分钟后,AI生成的应用展示出流畅的设计,精准满足了Dubois的需求。
OpenAI另一位后训练负责人Michelle Pokrass表示:“它是一位出色的编码协作伙伴,同时在具备自主性的任务中也表现优异。”据介绍,该模型能有效执行长链操作和工具调用,理解何时以及如何使用网络浏览器或外部API等功能,并能提前说明自身行为逻辑。
OpenAI在其系统卡(用于描述产品技术能力及研究结果的文件)中指出,GPT-5是目前“在健康相关问题上表现最佳的模型”。在三个由OpenAI制定的健康类LLM基准测试中——HealthBench、HealthBench Hard和HealthBench Consensus——GPT-5-thinking均大幅优于此前模型。在HealthBench Hard测试中,GPT-5-thinking得分为25.5%,而o3模型得分为31.6%。据介绍,这些评分经过两位或以上医师验证。
在AI模型常见的“幻觉”问题方面,Pokrass指出GPT-5出现错误信息的频率明显下降。OpenAI安全研究负责人Alex Beutel也表示,“在GPT-5中,欺骗行为的发生率已显著减少。”系统卡指出:“团队已采取措施降低GPT-5-thinking欺骗、作弊或破解问题的倾向,尽管这些缓解手段仍不完美,仍需进一步研究。”此外,该模型在无法解决的任务面前将“优雅地失败”,避免提供误导性结果。
根据系统卡内容,在测试中剥离GPT-5的网络浏览功能后,研究人员发现其“幻觉率”(即事实性陈述中包含小错或大错的比例)比GPT-4o低26%。而GPT-5-thinking则比o3的幻觉率降低了65%。
对于可能具有双重用途的提示词(既可能有害,也可能无害),Beutel介绍GPT-5将使用“安全补全”,即模型将在尽可能有帮助的前提下保持信息安全。OpenAI方面还透露,团队进行了超过5000小时的“红队”测试,并与外部机构协作测试,以确保系统的稳健性。
目前,OpenAI表示其ChatGPT的周活跃用户数接近7亿,付费企业用户达500万,开发者用户达400万。
ChatGPT负责人Nick Turley评价称:“这个模型的‘氛围’真的很好,相信用户能切身感受到这一点——尤其是那些此前未花太多时间研究AI模型的普通用户。”