Anthropic推出了一个颠覆性的功能——AI操作电脑

今天，Anthropic公司正式推出升级版Claude 3.5 Sonnet和全新模型Claude 3.5 Haiku。升级后的Claude 3.5 Sonnet在各方面性能上都有显著提升，尤其在编码领域，其表现已领先于其他AI模型。而Claude 3.5 Haiku的表现也不遑多让，它的表现与此前最大的Claude 3 Opus相当，但速度更快、成本更低，与上一代Haiku性能相似。

与此同时，Anthropic还推出了一个颠覆性的功能——AI操作电脑，现已在API上进入公测阶段。开发者可以让Claude像人类一样使用电脑，能够“看”屏幕、移动光标、点击按钮、输入文字。Claude 3.5 Sonnet是首个公开测试阶段支持这一功能的AI模型，目前仍处于实验阶段，偶尔操作还不够流畅、容易出错。Anthropic旨在通过开发者的反馈不断完善这一功能。

Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等公司已开始利用Claude 3.5 Sonnet的电脑操作能力，完成需要数十甚至上百步的复杂任务。例如，Replit正利用其UI导航能力，开发一项关键功能，用于在应用程序构建过程中进行评估。

现在，升级版Claude 3.5 Sonnet已经对所有用户开放，开发者可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI进行构建。而全新的Claude 3.5 Haiku将在本月晚些时候发布。

Claude 3.5 Sonnet：行业领先的软件工程能力

升级后的Claude 3.5 Sonnet在多个行业基准测试中表现优异，特别是在编码和工具使用任务中表现突出。在编码方面，其在SWE-bench Verified中的表现从33.4%提升到49.0%，超越了所有公开可用的模型，包括专门设计用于代理编码的系统和推理模型。同时，它在TAU-bench工具使用任务中的表现也有所提升，从零售领域的62.6%提升至69.2%，在更具挑战性的航空领域则从36.0%上升到46.0%。

GitLab对该模型进行了DevSecOps任务测试，发现其推理能力提升了约10%，并且没有增加延迟，非常适合用于多步骤的软件开发流程。Cognition也使用Claude 3.5 Sonnet进行自主AI评估，发现其编码、规划和问题解决能力相比前一代有了显著改善。而The Browser Company则在使用该模型进行网页自动化工作流程时，发现它的表现优于之前测试过的所有模型。

此外，Claude 3.5 Sonnet的部署前测试还由美国AI安全研究所（US AISI）和英国安全研究所（UK AISI）联合进行，确保其安全性能符合Anthropic的《责任扩展政策》中的ASL-2标准。

Claude 3.5 Haiku：速度与性价比的完美结合

Claude 3.5 Haiku是Anthropic最新、速度最快的模型，与Claude 3 Haiku相比，虽然成本相同、速度相似，但在各个方面都有提升，甚至在许多智能基准测试中超过了Claude 3 Opus。它在编码任务上的表现尤为突出，例如在SWE-bench Verified中的得分为40.6%，超越了许多使用公开最先进模型的代理，包括原版Claude 3.5 Sonnet和GPT-4o。

Claude 3.5 Haiku还拥有低延迟、更准确的工具使用能力，非常适合面向用户的产品、专门的子代理任务，以及从海量数据中生成个性化体验。

该模型将在本月晚些时候通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上线，初期仅支持文本输入，未来将支持图像输入。

AI学习电脑操作的责任

Anthropic此次推出的电脑使用功能打破了以往的限制，不再依赖特定工具来完成任务，而是教授AI通用的电脑技能，使其能够使用一系列为人类设计的标准工具和软件。开发者可以利用这一功能来自动化重复性流程、构建和测试软件，甚至进行开放式任务如研究。

为了实现这些技能，Anthropic开发了一款API，让Claude能够感知并与电脑界面互动。开发者可以整合这个API，将指令（如“使用我的电脑和在线数据填表”）翻译为电脑操作指令（如检查电子表格、打开网页浏览器、导航到相关页面、用数据填写表单等）。

在OSWorld的测试中，Claude 3.5 Sonnet在仅通过截图操作电脑的任务中得分为14.9%，远高于其他AI系统的7.8%。在任务步骤增加时，得分提升至22.0%。

尽管如此，目前Claude的电脑操作能力仍有待提高，像滚动、拖动、缩放等人类轻松完成的操作对它来说仍具挑战。由于电脑操作可能带来垃圾信息、欺诈等风险，Anthropic采取了积极的安全措施，推出了新型分类器来检测潜在危害。

展望未来

随着这一技术的初步应用，Anthropic希望能更好地理解AI系统日益增强的能力及其影响，期待开发者对这些新功能的探索和反馈，并期待看到未来Claude能带来的更多可能性。

Subscribe 订阅

Claude 3.5 Sonnet：行业领先的软件工程能力

Claude 3.5 Haiku：速度与性价比的完美结合

AI学习电脑操作的责任

展望未来