AI军备竞赛持续加速:Anthropic推出了最新型号Claude 3.5 Sonnet,据称在各种任务上可媲美甚至超越OpenAI的GPT-4o或Google的Gemini。这款新型号已在网页和iOS上向Claude用户开放,并且开发者也可以使用。
Claude 3.5 Sonnet将成为系列中的中端型号——Anthropic将其最小型号命名为Haiku,中端型号为Sonnet,最高端型号为Opus。(虽然这些名字有点怪,但每个AI公司似乎都有自己独特的命名方式,所以就不计较了。)公司表示,3.5 Sonnet的表现优于3 Opus,并且其基准测试显示差距相当大。新型号的速度也比之前快了一倍,这可能是更大的亮点。
尽管AI模型的基准测试结果应谨慎对待,因为测试种类繁多,很容易选择对自己有利的结果,而且模型和产品变化如此之快,几乎没有哪家能够长期领先。不过,Claude 3.5 Sonnet看起来确实令人印象深刻:在九项总体基准测试中,有七项超越了GPT-4o、Gemini 1.5 Pro和Meta的Llama 3 400B,在五项视觉基准测试中,有四项胜出。当然,不要过于解读这些数据,但似乎Anthropic确实在这个领域打造了一个有力的竞争者。

新模型能带来哪些实际好处?Anthropic表示,Claude 3.5 Sonnet在编写和翻译代码、多步骤工作流处理、图表解读以及图像文字转录方面会表现更好。这个改进版的Claude在理解幽默和模拟人类写作方面也更胜一筹。
除了新模型,Anthropic还推出了一个名为Artifacts的新功能。通过Artifacts,用户可以查看和互动Claude请求的结果:如果要求模型设计某物,现在可以在应用中看到并直接编辑。如果Claude为用户写了一封邮件,用户可以在Claude应用中编辑邮件,而无需复制到文本编辑器。这是一个小但巧妙的功能——这些AI工具需要超越简单的聊天机器人,而像Artifacts这样的功能正是让应用更有用的方向。

Artifacts实际上是Claude长期愿景的一个信号。Anthropic长期以来表示主要关注企业用户(尽管聘请了Instagram联合创始人Mike Krieger等消费技术人才),并在发布Claude 3.5 Sonnet的新闻稿中表示,计划将Claude打造成一个工具,让公司“安全地集中管理知识、文档和持续工作于一个共享空间”。这听起来更像是Notion或Slack,而不是ChatGPT,Anthropic的模型则是整个系统的核心。
目前,新模型是最大的新闻。这里的改进速度令人惊叹:Anthropic在三月推出Claude 3 Opus时,曾自豪地表示其表现与GPT-4和Gemini 1.0相当,随后OpenAI和Google发布了更好的版本。现在,Anthropic已采取了下一步行动,其竞争对手也很快会有回应。虽然Claude的讨论热度不如Gemini或ChatGPT,但它绝对在竞赛中占有一席之地。