今天,Anthropic公司正式推出升级版Claude 3.5 Sonnet和全新模型Claude 3.5 Haiku。升级后的Claude 3.5 Sonnet在各方面性能上都有显著提升,尤其在编码领域,其表现已领先于其他AI模型。而Claude 3.5 Haiku的表现也不遑多让,它的表现与此前最大的Claude 3 Opus相当,但速度更快、成本更低,与上一代Haiku性能相似。
与此同时,Anthropic还推出了一个颠覆性的功能——AI操作电脑,现已在API上进入公测阶段。开发者可以让Claude像人类一样使用电脑,能够“看”屏幕、移动光标、点击按钮、输入文字。Claude 3.5 Sonnet是首个公开测试阶段支持这一功能的AI模型,目前仍处于实验阶段,偶尔操作还不够流畅、容易出错。Anthropic旨在通过开发者的反馈不断完善这一功能。
Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等公司已开始利用Claude 3.5 Sonnet的电脑操作能力,完成需要数十甚至上百步的复杂任务。例如,Replit正利用其UI导航能力,开发一项关键功能,用于在应用程序构建过程中进行评估。
现在,升级版Claude 3.5 Sonnet已经对所有用户开放,开发者可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI进行构建。而全新的Claude 3.5 Haiku将在本月晚些时候发布。
Claude 3.5 Sonnet:行业领先的软件工程能力
升级后的Claude 3.5 Sonnet在多个行业基准测试中表现优异,特别是在编码和工具使用任务中表现突出。在编码方面,其在SWE-bench Verified中的表现从33.4%提升到49.0%,超越了所有公开可用的模型,包括专门设计用于代理编码的系统和推理模型。同时,它在TAU-bench工具使用任务中的表现也有所提升,从零售领域的62.6%提升至69.2%,在更具挑战性的航空领域则从36.0%上升到46.0%。
GitLab对该模型进行了DevSecOps任务测试,发现其推理能力提升了约10%,并且没有增加延迟,非常适合用于多步骤的软件开发流程。Cognition也使用Claude 3.5 Sonnet进行自主AI评估,发现其编码、规划和问题解决能力相比前一代有了显著改善。而The Browser Company则在使用该模型进行网页自动化工作流程时,发现它的表现优于之前测试过的所有模型。
此外,Claude 3.5 Sonnet的部署前测试还由美国AI安全研究所(US AISI)和英国安全研究所(UK AISI)联合进行,确保其安全性能符合Anthropic的《责任扩展政策》中的ASL-2标准。
Claude 3.5 Haiku:速度与性价比的完美结合
Claude 3.5 Haiku是Anthropic最新、速度最快的模型,与Claude 3 Haiku相比,虽然成本相同、速度相似,但在各个方面都有提升,甚至在许多智能基准测试中超过了Claude 3 Opus。它在编码任务上的表现尤为突出,例如在SWE-bench Verified中的得分为40.6%,超越了许多使用公开最先进模型的代理,包括原版Claude 3.5 Sonnet和GPT-4o。
Claude 3.5 Haiku还拥有低延迟、更准确的工具使用能力,非常适合面向用户的产品、专门的子代理任务,以及从海量数据中生成个性化体验。
该模型将在本月晚些时候通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上线,初期仅支持文本输入,未来将支持图像输入。
AI学习电脑操作的责任
Anthropic此次推出的电脑使用功能打破了以往的限制,不再依赖特定工具来完成任务,而是教授AI通用的电脑技能,使其能够使用一系列为人类设计的标准工具和软件。开发者可以利用这一功能来自动化重复性流程、构建和测试软件,甚至进行开放式任务如研究。
为了实现这些技能,Anthropic开发了一款API,让Claude能够感知并与电脑界面互动。开发者可以整合这个API,将指令(如“使用我的电脑和在线数据填表”)翻译为电脑操作指令(如检查电子表格、打开网页浏览器、导航到相关页面、用数据填写表单等)。
在OSWorld的测试中,Claude 3.5 Sonnet在仅通过截图操作电脑的任务中得分为14.9%,远高于其他AI系统的7.8%。在任务步骤增加时,得分提升至22.0%。
尽管如此,目前Claude的电脑操作能力仍有待提高,像滚动、拖动、缩放等人类轻松完成的操作对它来说仍具挑战。由于电脑操作可能带来垃圾信息、欺诈等风险,Anthropic采取了积极的安全措施,推出了新型分类器来检测潜在危害。
展望未来
随着这一技术的初步应用,Anthropic希望能更好地理解AI系统日益增强的能力及其影响,期待开发者对这些新功能的探索和反馈,并期待看到未来Claude能带来的更多可能性。