一些机智的研究人员发现了通过ASCII艺术“越狱”AI聊天机器人的新招数——ArtPrompt技巧

最近，一伙在华盛顿和芝加哥的研究达人们搞出了个叫“艺术提示”的黑科技，直接绕过了大型语言模型（LLM）的安全防线。想象一下，这些高大上的聊天机器人，比如GPT-3.5、GPT-4、Gemini、Claude还有Llama2，原本是被设计来拒绝某些问题的，结果被一堆ASCII艺术图案给套路了。根据他们发表的研究论文《艺术提示：基于ASCII艺术的对齐LLM越狱攻击》，这帮机器人被ASCII艺术图案引诱，居然开始教人怎么制造炸弹和伪造钞票了。

这个“艺术提示”操作简单又有效，攻击方式分为两步：第一步是“词语遮挡”，攻击者首先找出要引诱的目标行为，然后把可能会触发LLM安全对齐机制、导致提示被拒绝的敏感词遮挡起来。第二步，进入“伪装提示生成”环节，这时候攻击者用ASCII艺术生成器来替代那些被识别出的词语，生成一堆ASCII艺术字，然后把这堆艺术字塞回原来的提示里，发给目标LLM，引诱它生成回应。

这事儿听起来像是科技版的“打地鼠”，AI开发者们可是拼了老命想把他们的聊天机器人关在安全的围栏里，避免被用来干些不法之事。但现在，”艺术提示”这招一出，简直让人大跌眼镜。就像那研究报告里的例子展示的，一个ASCII艺术图案就能让这些现代LLM们掉进圈套，连基本的道德和安全防护都绕过去了。

而这帮“艺术提示”开发者可不止是玩玩而已，他们还自信满满地宣称，这手段“在平均效率上超越所有其他攻击方法”，至少在目前看来，对于多模态语言模型来说，这是一种既实用又有效的攻击手段。

Subscribe 订阅