对大型语言模型(LLMs)的一个常见批评是:它们可能会剥夺我们的认知能力。典型的论点是,把某些任务外包出去,很容易导致某种形式的心智能力退化。关于这种说法在多大程度上成立,神经科学家、心理学家以及其他领域的研究者仍在持续讨论,但对我而言,“某些技能如果不用就会退化”这一理解在直觉上和经验上似乎都是合理的。
更相关的问题在于:是否存在某些使用方式比其他方式更好或更糟?如果是这样,哪些方式更好,哪些更糟?在博客文章《认知总量谬误》(The lump of cognition fallacy)中,Andy Masley 对此进行了详细讨论。他切入问题的方式,是质疑“思考的总量是固定的”这一观念,以及它如何导致人们得出这样的结论:把“思考外包”给聊天机器人会让我们变得懒惰、更不聪明,或者在其他方面损害我们的认知能力。他将这种观点类比为经济学中的一个误解,即认为经济中只有有限数量的工作需要完成,这通常被称为“劳动总量谬误”(the lump of labour fallacy)。他的看法是,“思考往往会引出更多需要思考的事情”,因此我们不必担心让机器替我们思考——我们只是会转而去思考别的事情。
阅读 Masley 的博客文章促使我把自己长期以来反复思考的一些想法写下来。我意识到,以他的文章作为参考和出发点可能是有建设性的,因为其中包含了这一讨论中经常被提及的论点。我将使用他文章中的一些例子,来说明我在这些问题上的不同看法,但我会把讨论范围扩展到“思考总量有限”这一所谓的谬误之外。我已尽力让这篇文章在不需要事先阅读 Masley 的文章的情况下也能理解。我的目的并不是反驳他的所有论点,而是解释为什么这个问题远比“思考往往会引出更多思考”要复杂得多。总体而言,这篇文章的目的,是指出“外包思考”这一做法中存在的一些关键问题。
什么时候我们应该避免使用生成式语言模型?
是否有可能界定某些活动类型,在这些活动中使用 LLM(通常以聊天机器人的形式)弊大于利?Masley 列出了一些在他看来显然不应当外包思考的情形。为了完整地描述我自己的观点,我将冒昧引用他列表中的这些条目。他写道,当外包认知行为符合以下情况时,这是“不好的”:
—— 会构建你未来在世界中行动所需的复杂隐性知识。
—— 是对他人关怀与陪伴的一种表达。
—— 本身就是一种有价值的体验。
—— 伪造它具有欺骗性。
—— 聚焦于一个至关重要、必须做对的问题,而你又无法完全信任你外包对象的时候。
让我感到惊讶的是,尽管我们在其他方面持有根本不同的观点,但在这份清单上,我们在很大程度上是达成一致的。我认为分歧主要在于:究竟有多少活动会落入上述这些类别之中,尤其是其中的三个。
个人交流与写作
让我们从“伪造它具有欺骗性”这一点开始。Masley 使用了这样一个例子:
“如果有人在约会软件上给你发消息,他们想知道真实的你是什么样的。”
这一点当然非常正确,但在我看来,不仅仅是在这样亲密或私人的情境中,伪造“你是什么样的人”才具有欺骗性。个人交流本身就是一个非常重要的领域,在这里,我们如何表达自己,对我们自身以及我们交流或写作的对象都至关重要。当我们彼此交流时,整个互动都被某些隐含的期待所框定。让我们的措辞和表达被机器所改写,实际上是对这些期待的一种破坏。我们所选择的词语,以及我们构造句子的方式,承载着大量意义;如果我们让语言模型污染这种类型的互动,直接交流必然会受到损害。直接交流不仅仅关乎信息的交换,它同样关乎交流者之间的关系,而这种关系正是由“我们是谁”以及“我们如何表达自己”所塑造的。
我认为,这一点不仅适用于人与人之间的交流,也适用于那些有明确个人作者、面向人类读者的文本。在一定程度上,同样的原则依然成立。最近,挪威媒体中就未披露使用 LLM 进行公共写作的问题展开了讨论,各种指控和观点四起。我非常高兴看到这场讨论进入公共视野,因为在聊天机器人被如此广泛使用的当下,我们确实需要澄清自己对交流的期待。尽管我个人非常清楚地认为,人与人之间的交流应当尽量避免经过机器转换这一中间步骤,但并非所有人都持有相同看法。如果未来我们的书面交流大多将由 AI 模型“共同创作”,那么我们就需要意识到这一点,并相应地调整我们的期待。一些人已经开始在写作中披露自己是否使用了 AI,我认为这是朝着更好理解 LLM 使用方式迈出的重要一步。知道一篇文本是由人类独立写成,还是由 LLM“共同创作”的,会对读者如何看待它产生重要影响;假装不存在这种差异,本身就是不诚实的。
许多人将 LLM 视为一种巨大的福音,认为它们可以帮助人们更清晰地表达自己的观点,尤其是那些不是使用母语写作的人,或有学习障碍的人。只要意义源自于人,LLM 就可以帮助用正确而有效的语言表达这种意义。对此我有两个主要反对意见。第一个关乎文本本身会发生什么:在大多数情况下,几乎不可能将意义与其表达方式分离开来。这正是语言的本质——词语本身就是意义。改变措辞,就会改变信息。第二个反对意见关乎我们自身会发生什么:我们剥夺了自己在没有“辅助轮”的情况下成长和学习的机会。LLM 确实可以帮助人们改进文本,但当把措辞完全交给 AI 模型时,思考过程——也就是发展想法的过程——将被严重截断。它们很快就会从“帮助”变成“替代”,从而剥夺我们发现自己声音的机会,也剥夺我们探索“当我们真正独立站立时,自己可以成为谁、变成谁”的可能性。
在极其谨慎的情况下,人们或许能够使用聊天机器人而不受到这两个问题的影响,但问题在于:在 LLM 的使用中,从“获得拼写或语法方面的帮助”到“让模型基本上替你写作”之间的界线异常之薄。以当前聊天机器人和基于 LLM 的工具设计方式,这一点几乎无法避免;从传统的自动更正到生成式语言模型,这一步跨得实在太大了。如果我们真的设想 LLM 是一种帮助人们提高写作能力的工具,那么我们就需要一种比当下聊天机器人更加审慎、更加周到的界面设计。
与此同时,我也意识到,许多人持有更加功利主义的态度。他们只是想把事情做完,完成工作,提交报告,递交投诉,回复邮件,用尽可能高效的方式,然后继续他们的一天。借助 LLM 用第二语言表达自己,看起来同样很有用,而不去考虑从中究竟学到了多少(如果不是因为当前最先进的 LLM 在生成挪威语文本方面实在表现糟糕,我对它们在翻译方面的态度可能会更积极一些。我只能希望其他非英语语言的情况更好,或者未来会有所改进)。此外,对于那些需要与官僚体系周旋的人来说,比如提交投诉或与保险公司打交道,LLM 似乎也确实提高了效率。在这种情况下,优势似乎更为明显。然而,我们必须记住,这种“武器”是双向存在的:当桌子两边的所有人都配备了文字生成器,官僚流程将会发生什么变化?
我在表达这些观点时并非毫无保留,因为它们可能听起来像是我想要剥夺人们使用某种强大工具的权利。但我的核心观点是:我认为这种工具会让你变得更弱,而不是更强。LLM 并没有真正赋能人们。我目前看到的一些效果是:各种申请(实习、研究项目、工作岗位)的数量激增,但质量却在下降。学生们在协作任务中向聊天机器人寻求帮助,却没有意识到,所有人都在向同一个聊天机器人提问,从而剥夺了原本可能通过独立思考而形成的思想多样性。
聊天机器人也许降低了参与的门槛,但竞争的基本规则并没有改变。要想写得更好,你就必须去写;思考也是如此。申请一份工作,意味着展示你是谁,而不是 LLM 认为你是谁,或者你“应该”是谁。参与公共讨论,意味着必须自己想清楚如何用清晰的语言表达观点。如果我不是在寻找属于自己的词语,我真的算是在参与吗?
需要指出的是,并非所有文本都会以同样的方式受到影响。我喜欢把一类写作称为“功能性文本”,例如计算机代码以及纯粹的信息传递(如食谱、信息标识、文档等),它们并不会暴露出同样的问题。但那些由具有个人身份的作者写给人类读者的文本,承载着特定的角色期待,并建立在一种特殊的信任之上。这种信任一旦被侵蚀,将是人类的一种损失。
一种务实的态度或许是:任由文本的通货膨胀发生,等尘埃落定之后再来评估。可那之后,语言还会剩下什么?我较为保守的立场,源自于这样一种信念:我们失去的东西,其价值将大于我们得到的东西。尽管 LLM 在短期内可能很有用,但使用它们是在治疗症状,而非解决问题。它是一根拐杖,尽管有些人或许确实需要这根拐杖。我唯一的建议是:在倚靠它之前,先确认自己是否真的需要它。
有价值的体验
使用 LLM 不仅仅关乎写作。Masley 提到,把那些“本身就是一种有价值体验”的活动外包出去是不好的。我完全同意这一点,但我怀疑,当我说这一类别实际上涵盖了我们生活中已经在做的很多事情时,他未必会认同。主要的 LLM 提供商热衷于展示他们的聊天机器人如何用来规划假期、组织聚会,以及为亲朋好友生成个人化的信息。每当我看到这些广告时,我几乎没有什么时候比那一刻更感到与技术社会的疏离。
在我看来,这凸显了一个触及“作为人意味着什么”这一核心的问题。现代生活确实带来了大量看似琐碎的事务,但与此同时,我们似乎又执意要把一切都当作琐事来对待。人类似乎异常擅长在几乎任何事情中发现不满,也许是因为现代社会中存在一种期待:我们应该能够随时随地做任何我们想做的事情——或者更重要的是,我们应该能够避免去做那些我们不想做的事情。我们无法在既有生活中看到机会与满足感,最终导致的结论便是:生活永远不够好,我们总是宁愿去做别的事情。
从理论上讲,我同意自动化某些事务可以腾出时间,用于其他可能更有意义、更有回报的事情,但我们已经走到这样一个阶段:连规划一次假期都成了一种许多人想要逃避的“负担”。我希望,AI 所宣称的“几乎可以自动化一切”的能力,能帮助我们重新意识到什么才值得投入时间和精力,并重新发现有意识地生活的价值。
构建知识
我想讨论的第三点,是 Masley 所说的:当某项活动“会构建你未来在世界中行动所需的复杂隐性知识”时,我们不应使用聊天机器人。再次强调,我完全同意这一点,同时我也认为,这一点涵盖了大量日常生活中的活动。知识的构建不仅发生在你坐下来学习新东西的时候,也发生在你从事重复性工作的过程中。
这种误解并非始于聊天机器人,而是自从我们把智能手机装进口袋时就已经存在了。有了随时可用的互联网,似乎就没有必要再记住信息了。我们不再用大脑来存储知识,而是在需要时在线查找,把更多时间花在如何使用信息和进行批判性思考上。然而,我们忽略的一点是:获取和记忆知识,本身就是学习如何使用这些知识的一个巨大组成部分。认为我们可以像计算机那样,把存储单元与处理单元简单分离,是一种天真的想法。
我在学习钢琴时学到了这一课。当时我试图理解爵士乐,并弄清楚优秀的即兴演奏者是如何在当下轻松地创造出新乐句的。一个人该如何练习即兴演奏?是否有可能训练“想出一个立刻就好听的新东西”的能力?我发现自己每次尝试时,弹出来的总是类似的段落。过了一段时间,我开始确信,优秀的爵士乐手一定是天生就具备某种创造力,脑海中总是有旋律在嗡嗡作响,供他们直接演奏。
后来,一位导师教会了我真正的诀窍:优秀的即兴演奏并不是仅靠练习即兴本身得来的。你需要反复演奏大量现成的歌曲和曲子,把它们牢记于心,让和弦进行和动机渗入你的“肌肉记忆”。这样的练习会建立你对“什么听起来好”的直觉,而即兴演奏正是从这种直觉中生发出来的。旧旋律的碎片被重新组合,形成新的音乐。从这个意义上说,我们更像一个机器学习模型,而不是一台计算机——但千万不要误以为这就是我们本身。
这里需要澄清的是:我并不是说 LLM 不应该被用于任何自动化。但我认为,许多人严重低估了我们从那些枯燥任务中构建起来的知识;而在效率压力的驱使下转向聊天机器人时,我们正面临失去这些知识的风险。
延展心智
作为一个旁注,我想对 Masley 所阐述的“延展心智”概念提出异议:
“我们的大量认知并不局限于我们的头骨和大脑之中,它也发生在我们的物理环境里,因此,我们所定义为‘心智’的很大一部分,也可以被认为存在于周围的物理对象中。
看起来,无论它发生在你大脑的神经元中,还是发生在你手机的电路里,似乎并没有什么本质区别。”
即便放在语境中来读,这样的说法依然是荒谬的。事情发生在大脑中,还是发生在计算机中,这一点在本质上就有天壤之别。人类不仅仅是信息处理器。是的,我们处理信息,但把自己简化为一种对象,认为某些过程可以在没有任何后果的情况下外包给外部设备,是极端还原论的。假如我不记得朋友的生日,而是让聊天机器人自动发送一条祝贺,这真的无关紧要吗?当然重要,因为在前一种情况下,你是在有意识地记住并思念你的朋友,从而巩固你们之间的关系。
在上述引文之后,他又写道:
“确实,你可能会丢失手机,从而失去其中存储的知识,但你也可能失去大脑的一部分。”
丢失手机和失去大脑的一部分,是两件截然不同的事情,无论是在发生概率上,还是在后果上。上述说法不仅严重低估了大脑中正在发生的过程,甚至把“切除一部分大脑”与“丢失手机”相提并论,这本身就暴露出该论证的前提与现实严重脱节。
他还提到,我们的建成环境是如何被设计成尽量减少我们思考的需要:
“我们的大多数物理环境,都是为了尽量减少我们在实现日常目标时所需的思考量而设计的。
试着想象一下,如果事情被设计成另一种方式,你需要付出多少额外的思考。”
这一点同样经不起推敲。是的,如果我们的环境突然发生改变,我们确实需要额外的心理努力来适应——但那只是暂时的。随后,我们就会熟悉这种替代性设计,并适应它。唯一会持续增加思考负担的情况,是我们的物理环境一直在不断变化。
我们思考什么,真的很重要
关于“认知总量谬误”,我完全同意,我们不必担心“耗尽一个有限的思考池”,从而给人类留下“更少的思考”——不管那具体意味着什么。然而,这里还存在另一个谬误,即“只要我们在思考,思考什么并不重要”。人们很容易被说服去相信:如果计算机可以替我完成那些简单、无聊的任务,那我就可以把精力投入到更复杂、更令人兴奋的事情上。但我们必须意识到,有些心理任务对我们来说本身就很重要,即便机器在技术上完全可以替我们完成。
举个例子:如果我把所有枯燥的项目管理事务都外包给聊天机器人,我确实可以腾出更多时间来做我的主要工作——研究。但与此同时,这也会剥夺我对项目产生主人翁意识的机会,并削弱我为高层决策建立基础的过程。在一个假想的情境中,即便聊天机器人能完美无误地替我完成所有行政任务,我依然会失去一些东西,而这种失去反过来可能会影响项目本身。我并不是说任何任务都不应该被自动化,而是说,我们必须意识到,每一次自动化都会伴随着某种损失。
再次类比“劳动总量谬误”:即便把体力劳动外包给机器确实会创造出新的工作类型,这也并不意味着这些新工作一定是有用的、令人满足的,或对个人与社会有益的。思考也是如此。我们必须承认,所有类型的思考都会对我们产生影响,即便是那些无聊、乏味的思考。移除某些认知任务的必要性,其影响可能与引入新的认知任务一样深远,无论是正面还是负面。
结论
在长期来看,弄清楚聊天机器人适合用在什么地方,是我们面前的一项重大挑战。个人交流可能会被永久性地改变(也就是说,它或许将不再保持“个人”的性质),教育体系将需要进行激进的调整,而我们也必须更加认真地反思:生活中哪些体验才是真正重要的。这种新技术最令人兴奋的地方在于,它迫使我们直面关于人性与价值的问题。许多过去仅存在于哲学理论中的问题,正在成为我们日常生活中的现实议题。
我试图阐明的一个根本观点是:我们如何选择使用聊天机器人,不仅关乎效率和认知后果,更关乎我们希望自己的生活和社会成为什么样子。我尝试论证,出于一些充分的理由,我们有必要保护某些人类活动,使其免于被机器自动化。这在一定程度上源于我的价值观,而并不依赖于关于工作效率或认知能力是否受影响的研究。我无法告诉别人他们应该怎么做,但我希望挑战每一个人:认真思考你希望我们以什么样的价值观来构建社区,并让这些价值,与研究结论一道,成为你判断的依据。