周二,Anthropic公司的Claude 3 Opus大型语言模型(LLM)在Chatbot Arena上首次超越了OpenAI的GPT-4(即ChatGPT的驱动力),Chatbot Arena是一个受欢迎的由AI研究者使用的众包排行榜,用以衡量AI语言模型的相对能力。软件开发者Nick Dobos在推特上发文比较GPT-4 Turbo和Claude 3 Opus,这条推文在社交媒体上广为流传:“国王已死。”“GPT-4安息。”
自从2023年5月10日GPT-4被包含在Chatbot Arena以来(该排行榜在那年的5月3日启动),GPT-4的各种版本一直稳居榜首,直到现在,所以在AI语言模型相对较短的历史中,它在竞技场上的失利是一个值得注意的时刻。Anthropic的一个较小的模型,Haiku,也因其在排行榜上的表现而引人注目。
“这是第一次,最好的模型——Opus用于高级任务,Haiku用于成本和效率——来自于非OpenAI的供应商,”独立AI研究者Simon Willison告诉Ars Technica。“这是令人安心的——在这个领域拥有多样化的顶级供应商对我们所有人都有好处。但是GPT-4在这个时点已经超过一年老了,而且用了那么一年的时间别人才追上。”
