最近,社交媒体上开始流传有关一款名为“gpt2-chatbot”的神秘聊天机器人的消息,该机器人出现在LMSYS聊天机器人竞技场。一些人猜测,这可能是OpenAI即将推出的GPT-4.5或GPT-5大型语言模型(LLM)的秘密测试版本。目前的付费版ChatGPT由GPT-4 Turbo提供支持。

这款新模型目前只能通过聊天机器人竞技场网站以限制方式使用。在网站的“并排”竞技模式中,用户可以有意选择这个模型,gpt2-chatbot的查询限制为每天八次,这极大地限制了人们对其进行详细测试的能力。

到目前为止,gpt2-chatbot已经在网上引发了许多传言,包括它可能是GPT-4.5或甚至GPT-5的秘密测试版本的发布,或者可能是使用新技术训练的2019年的GPT-2的新版本。我们联系了OpenAI寻求评论,但在截稿时间前没有收到回复。周一晚上,OpenAI的CEO Sam Altman似乎暗示了什么,他在推特上写道:“我确实对gpt2情有独钟。”
最初的报道首次出现在4chan上,随后传播到X等社交媒体平台,随之而来的是炒作。AI开发者Pietro Schirano在X上写道:“它不仅显示出令人难以置信的推理能力,而且在回答那些著名的棘手AI问题时,语气回答更令人印象深刻。”不久,Reddit上就出现了帖子,声称新模型的能力超过了竞技场上的所有其他LLM。
对于这些传言感到好奇,我们决定亲自尝试这款新模型,但结果并不令人印象深刻。当询问关于“Benj Edwards”的问题时,与GPT-4 Turbo的输出相比,该模型显示出一些错误和一些语言上的尴尬。请求五个原创的爸爸笑话也未能达到预期。此外,gpt2-chatbot并未明确通过我们的“洋红色”测试(“如果没有洋红镇,这种颜色会被称为‘洋红色’吗?”)。
因此,无论它是什么,它可能不是GPT-5。我们已经看到其他人在进一步测试后得出相同的结论,他们说这款新的神秘聊天机器人似乎并没有代表超越GPT-4的重大能力飞跃。“Gpt2-chatbot很好,真的很好,”HyperWrite的CEO Matt Shumer在X上写道。“但如果这是gpt-4.5,我会感到失望。”
不过,OpenAI的痕迹似乎遍布这款新机器人。“我认为这很可能是OpenAI的一次秘密预览,”AI研究员Simon Willison告诉Ars Technica。但是“gpt2”究竟是什么,他也不知道。在审视在线猜测后,似乎除了其创造者之外,没有人确切知道这个模型是什么。
Willison发现了该AI模型的系统提示,该提示声称它基于GPT-4并由OpenAI制作。但正如Willison在推特上指出的那样,这并不能保证出处,因为“系统提示的目的是影响模型以特定方式行为,而
不是提供关于其自身的真实信息。”