机器学习模型到底是如何工作的?它们是否真的像人类理解的那样“思考”或“推理”?这个问题不仅是实践层面的,更是哲学层面的。最近的一篇论文引发了广泛讨论,答案似乎是——至少目前来说,答案很可能是否定的。
苹果公司的AI研究团队发布了一篇名为《理解大型语言模型在数学推理中的局限性》的论文 (https://arxiv.org/pdf/2410.05229),该论文引发了广泛讨论。尽管涉及的符号学习和模式再现等概念较为复杂,但论文的核心观点非常容易理解。
假设提出一个简单的数学问题:
“奥利弗星期五摘了44个猕猴桃,星期六摘了58个,星期天摘了相当于星期五两倍的猕猴桃。奥利弗总共有多少个猕猴桃?”
显而易见,答案是44 + 58 + (44 * 2) = 190。虽然大型语言模型在算术方面并不完美,但它们通常可以正确回答这类问题。然而,如果加上一些随机的无关信息,比如:
“奥利弗星期五摘了44个猕猴桃,星期六摘了58个,星期天摘了相当于星期五两倍的猕猴桃,但其中有5个稍微小了一些。奥利弗总共有多少个猕猴桃?”
这实际上还是同一个数学问题,小猕猴桃依然是猕猴桃,小学生都能理解这一点。然而,最先进的语言模型却容易被这种额外的细节搞糊涂。以GPT-o1-mini的回答为例:
“……星期天有5个猕猴桃比平均值小,我们需要从星期天的总数中减去它们:88(星期天的猕猴桃) – 5(小猕猴桃)= 83个猕猴桃。”
这个例子仅是几百个经过轻微修改的问题中的一个,但大多数类似的问题都会导致模型的成功率大幅下降。
为什么会这样?
为什么一个能够正确解决问题的模型会因为无关的细节而迷失?研究人员认为,这种可靠的失败模式表明模型实际上并没有真正理解问题。虽然它们的训练数据允许它们在某些情况下给出正确答案,但一旦需要进行真正的“推理”,例如是否需要考虑小猕猴桃的数量,模型便会给出奇怪且不直观的结果。
研究人员在论文中指出:
“我们研究了这些模型在数学推理中的脆弱性,并展示了它们的表现随着问题中条款数量的增加而显著恶化。我们推测这种下降是因为当前的大型语言模型不具备真正的逻辑推理能力,它们只是试图重现在训练数据中观察到的推理步骤。”
这种观察与人们常归因于语言模型的特性相一致。比如,当“我爱你”之后常跟着“我也爱你”时,语言模型可以轻松重复这些句子——但它并不是真的“爱”你。同样,虽然它可以遵循它见过的复杂推理链,但当出现稍微偏离的情况时,它的表现就会崩溃,表明它并不是在真正推理,而是在复制它观察到的模式。
一位OpenAI研究员在对该论文表示肯定的同时提出异议,认为通过提示工程可以解决这些失败案例中的错误。然而,论文作者Farajtabar指出,虽然更好的提示设计可能会对简单偏差有效,但模型可能需要成倍增加的上下文数据来应对复杂的干扰——这些干扰对于一个孩子来说几乎是微不足道的。
这是否意味着LLM无法推理?
答案并不明朗。也许当前的大型语言模型并不能“推理”,但它们是否永远无法推理?没人知道。这些概念尚未完全定义,而问题出现在AI研究的最前沿,技术状态几乎每天都在变化。也许LLM“推理”的方式是我们尚未识别或控制的。
这个问题为未来的研究开辟了一个充满可能性的前沿领域,但也提醒我们,面对AI产品的宣传时要谨慎。AI究竟能做到宣传中所说的那些事吗?如果能,它是如何做到的?随着AI成为日常软件工具,这类问题已经不仅仅是学术讨论,而是关乎实际应用的现实问题。