谷歌DeepMind研究团队的最新研究发现,当评估由大型语言模型生成的信息准确性时,人工智能系统能够胜过人类事实核查员。
研究论文名为《大型语言模型中的长篇事实性》,已在预印本服务器arXiv上发布。文中介绍了一种名为搜索增强事实评估器(SAFE)的方法,利用大型语言模型将生成的文本分解为个别事实,再通过谷歌搜索结果来确定每个声明的准确性。
“SAFE利用LLM将长篇回应分解为一组个别事实,并通过发送搜索查询至谷歌搜索并确定一个事实是否得到搜索结果支持的多步骤推理过程来评估每个事实的准确性。”作者这样解释。
在一项涉及大约16,000个事实的数据集测试中,研究人员将SAFE与人类注释者进行了比较,发现SAFE的评估与人类评级相符的比例为72%。更引人注目的是,在SAFE与人类评审者意见不一致的100个样本中,SAFE的判断在76%的案例中被认为是正确的。
尽管该论文声称“LLM代理可以实现超人的评级表现”,但一些专家对此提出质疑。著名AI研究员Gary Marcus在社交媒体上建议,“超人”可能仅仅意味着“比低薪的众包工人更好,而不是真正的人类事实核查员”。
为了真正证明超人表现,SAFE需要与专家人类事实核查员而不仅是众包工人进行基准测试。人类评审者的具体细节,如他们的资格、报酬和事实核查过程,对于正确理解结果至关重要。
SAFE的一个明显优势是成本——研究人员发现,使用AI系统的成本大约是人类事实核查者的20倍。DeepMind团队还使用SAFE评估了13种顶尖语言模型在一个名为LongFact的新基准上的事实准确性。他们的结果表明,更大的模型通常产生较少的事实错误。
然而,即使是表现最好的模型也生成了大量的错误声明,这强调了过度依赖可能流畅表达不准确信息的语言模型的风险。像SAFE这样的自动事实核查工具在缓解这些风险中可能发挥关键作用。
尽管SAFE代码和LongFact数据集已在GitHub上开源,允许其他研究人员审查和建立工作,但围绕研究中使用的人类基线仍需要更多透明度。了解众包工作者背景和过程的具体情况对于正确评估SAFE的能力至关重要。
随着科技巨头争相开发越来越强大的语言模型,自动事实核查这些系统的输出的能力可能会成为关键。然而,开发如此重大技术的过程必须公开进行,需要来自公司墙外的广泛利益相关者的输入。与人类专家——而不仅是众包工作者——进行严格、透明的基准测试将是衡量真正进步的关键。