谷歌DeepMind推出了一种新的方式来“窥探”AI的“内心”,并利用自动编码器揭示AI的黑箱运作。这种方法可能帮助研究人员更好地理解和控制AI的决策机制,为未来更可靠的AI系统铺路。
DeepMind的团队在研究被称为“机制可解释性”的领域,即试图理解神经网络如何实际运作。今年7月,他们发布了名为“Gemma Scope”的工具,让研究人员可以更清楚地观察AI在生成输出时内部发生了什么。团队负责人Neel Nanda指出,机制可解释性是一种新兴研究领域,目标是解构神经网络内部算法的运作方式。例如,AI在接收到“写一首诗”的指令后会输出韵律十足的句子,但具体执行的算法却不明朗,研究人员希望通过这种方式追踪其过程。
在分析AI模型Gemma时,DeepMind使用了一种“稀疏自动编码器”的工具。这种编码器可放大模型的每一层,帮助研究人员更直观地观察AI如何在不同数据层级上分类特征。例如,如果向Gemma提问“吉娃娃”,它就会激活“狗”这一特征,显示模型关于狗的知识。稀疏自动编码器的特点是仅使用部分神经元进行激活,形成更高效的表现形式,但同时控制信息的粒度,以便研究人员不至于被过度复杂的信息淹没。
DeepMind此举的目的是将Gemma和自动编码器的研究开源,鼓励更多研究人员使用和探索,从而进一步推动AI模型内部逻辑的理解。据悉,Neuronpedia,一个机制可解释性平台,也与DeepMind合作开发了Gemma Scope的演示版。用户可以在演示中输入不同指令并观察模型的响应,比如如果对“狗”特征进行极度放大,模型会在回答美国总统相关问题时莫名加入“狗”的内容,甚至可能回应出“狗叫声”。
稀疏自动编码器的有趣之处在于它们是无监督的,可以自主发现特征。例如,Neuronpedia的科学负责人Joseph Bloom提到,在自动编码中,“尴尬(cringe)”特征会在涉及负面评论时激活,这也说明模型能够自主找到与人类情感和判断相关的特征。此外,Neuronpedia还允许用户检索特定概念,标注激活的具体词汇,以了解模型是如何分解和理解人类概念的。
这种研究还揭示了AI为何会产生错误。举个例子,研究人员发现,AI模型将“9.11”视作比“9.8”更大,因为模型将这些数字误认为日期。这种错误往往是AI受限于特定的训练数据,经过调整后问题便可纠正。
机制可解释性还有许多潜在应用,例如在模型中去除敏感内容。当前LLM模型通常会内置系统级提示,以阻止用户获取不良信息,但通过机制可解释性,模型开发者有望找到并永久关闭这些节点,使AI彻底忘掉特定内容。
尽管机制可解释性前景广阔,但目前的技术难以完全控制AI的行为。Neuronpedia的创始人Johnny Lin表示,在模型参数的调整上,技术仍然存在不足。比如,如果通过减少暴力特征来控制模型,有可能会削弱AI在其他领域的知识。
总而言之,如果能够进一步深入AI的“心智”,机制可解释性研究将有可能成为实现AI对齐(确保AI行为符合预期)的有效途径。