最近,一伙在华盛顿和芝加哥的研究达人们搞出了个叫“艺术提示”的黑科技,直接绕过了大型语言模型(LLM)的安全防线。想象一下,这些高大上的聊天机器人,比如GPT-3.5、GPT-4、Gemini、Claude还有Llama2,原本是被设计来拒绝某些问题的,结果被一堆ASCII艺术图案给套路了。根据他们发表的研究论文《艺术提示:基于ASCII艺术的对齐LLM越狱攻击》,这帮机器人被ASCII艺术图案引诱,居然开始教人怎么制造炸弹和伪造钞票了。
这个“艺术提示”操作简单又有效,攻击方式分为两步:第一步是“词语遮挡”,攻击者首先找出要引诱的目标行为,然后把可能会触发LLM安全对齐机制、导致提示被拒绝的敏感词遮挡起来。第二步,进入“伪装提示生成”环节,这时候攻击者用ASCII艺术生成器来替代那些被识别出的词语,生成一堆ASCII艺术字,然后把这堆艺术字塞回原来的提示里,发给目标LLM,引诱它生成回应。
这事儿听起来像是科技版的“打地鼠”,AI开发者们可是拼了老命想把他们的聊天机器人关在安全的围栏里,避免被用来干些不法之事。但现在,”艺术提示”这招一出,简直让人大跌眼镜。就像那研究报告里的例子展示的,一个ASCII艺术图案就能让这些现代LLM们掉进圈套,连基本的道德和安全防护都绕过去了。
而这帮“艺术提示”开发者可不止是玩玩而已,他们还自信满满地宣称,这手段“在平均效率上超越所有其他攻击方法”,至少在目前看来,对于多模态语言模型来说,这是一种既实用又有效的攻击手段。