Anthropic 呼吁 AI 实验室考虑暂停研发，并警告人类可能失去控制权

该公司警告称，技术进步速度正在迅速加快，AI 系统很快可能具备自我改进能力，其演进速度甚至会超过社会管理和控制风险的能力。

Anthropic

Anthropic 正呼吁全球主要 AI 实验室讨论建立一种协调且可验证的暂停机制，以应对先进 AI 系统带来的潜在风险。

Anthropic 提议，全球顶尖人工智能公司应共同制定一种协调机制，在必要时暂停先进 AI 系统的开发。该公司认为，AI 技术的发展速度已经快到可能使人类失去控制能力的程度。

这家 Claude 聊天机器人的开发公司周四在博客中表示，随着最前沿 AI 系统执行任务的能力越来越强、速度越来越快，“对于整个世界而言，拥有减缓甚至暂时暂停其发展的选项，将是一件好事”。

Anthropic 表示，其内部研究机构计划与其他组织合作研究这一问题，并采取行动推动建立可信的减速或暂停机制，不过并未透露具体实施方式。

Anthropic 的竞争对手 OpenAI 则在周三发布的一份报告中提出了不同看法。OpenAI 认为，最终应由民主政府而非私人企业单独决定 AI 发展的规则、安全保障机制以及问责体系。

OpenAI 表示：

“我们认为，关于 AI 创新速度的决定，不应由任何一家实验室、公司或特殊利益集团单独掌控。”

Anthropic 在文章中指出，AI 模型的能力正在迅速提升，尤其是在独立完成编程等软件任务方面的效率增长极快。按照当前的发展趋势，只要拥有足够的算力支持，未来 AI 系统可能具备设计和开发下一代 AI 系统的能力，这一过程被称为“递归自我改进（recursive self-improvement）”。

Anthropic 认为，能够自行构建后继版本的 AI 将成为重要的技术里程碑，并可能在科学研究、医疗健康等领域带来巨大收益。但与此同时，这种能力也可能增加人类失去对 AI 系统控制权的风险。

科技行业中长期以来一直有人对此类情景提出警告。

Anthropic 的表态恰逢另一项引发关注的研究发布。本周，多伦多大学研究团队展示了一种利用 AI 工具构建的新型 AI“蠕虫（worm）”。这种恶意程序能够在设备之间传播时不断调整攻击策略，并逐步接管大规模计算网络。

该研究负责人 Nicolas Papernot 在接受采访时表示：

“我认为让公众理解这一点非常重要：带来安全风险的并不只是那些最大、最强大的语言模型。”

Anthropic 这篇文章由联合创始人 Jack Clark 和研究院负责人 Marina Favaro 共同撰写。两人表示，暂停开发的目的是让社会治理体系和 alignment（对齐）研究能够跟上 AI 技术的发展速度。所谓 alignment，是 AI 行业内用于描述“确保 AI 行为符合人类价值观与意图”的术语。

他们提出的协调机制还应允许先进 AI 实验室验证全球竞争对手是否确实停止或放缓了研发工作，并确保不会有恶意参与者借着“集体减速”的名义暗中抢跑。

Anthropic 认为，之所以需要全球层面的协调机制，是因为如果没有统一安排，任何一家机构单方面放缓研发都可能让那些最不谨慎的参与者迎头赶上，从而进一步加剧企业和政府在 AI 安全问题上的压力。

随着 AI 系统能力持续增强，人们对于其可能失去控制并对社会造成危害的担忧也在不断上升。今年早些时候，Anthropic 自家的 Mythos 模型曾因能够发现现有代码中的漏洞而震动多个行业，包括银行业和软件行业。

然而，监管进展依然缓慢，尤其是在美国——目前全球大多数领先 AI 实验室都位于美国。本周稍早，特朗普政府通过一项行政命令，将部分责任交给 AI 公司本身，要求它们在公开发布最先进模型之前，自愿提交政府进行网络安全测试。

将安全置于核心位置

事实上，AI 研究人员过去也曾多次呼吁暂停开发，但收效甚微。

拥有 xAI 的 Elon Musk 就曾支持 2023 年由非营利组织 Future of Life Institute 发起的一项倡议。该倡议呼吁暂停 AI 开发六个月，以便为建立必要的安全护栏争取时间。

长期以来，Anthropic 一直将自己定位为以安全为核心的 AI 实验室。今年早些时候，该公司拒绝允许美国军方将其模型用于国内监控和完全自主武器系统，这一决定引发政府不满。随后，美国政府将其列入国家安全黑名单，该措施预计将在 2026 年晚些时候生效。

Anthropic 此番发声的背景还包括其与 ChatGPT 开发商 OpenAI 正在竞相推进首次公开募股（IPO）。市场预计，Anthropic 上市后的估值可能接近 1 万亿美元。

与此同时，Papernot 在发布研究报告之前已提前通知加拿大网络安全主管部门。他在报告中展示了研究团队如何利用一种廉价、易获取且可修改的开源 AI 工具，在实验室环境下构建出上述 AI 蠕虫。

Papernot 表示：

“过去，网络攻击者主要瞄准那些价值极高的目标。”

“例如银行系统、医院、电网、水处理系统以及学校等。”

他同时认同，应加强企业、政府机构和学术研究人员之间的合作，共同开发防御措施，以应对 AI 驱动的黑客工具正在极大提升漏洞发现和利用能力这一现实。

他说：

“你地下室里那台平时几乎不管的旧笔记本电脑，看上去似乎不是一个高价值目标，但它完全可能成为攻击更高价值目标的跳板。”

Subscribe 订阅

将安全置于核心位置