最近我和妻子需要叫一辆车,于是掏出手机,用几个打车应用对比价格。平时价格总会有一点差异,但这一次的差别却格外明显。 我妻子的 Uber 应用给出的报价是 28 美元,而我的却是 47 美元。同一个应用、同一时间、同一地点——却是两个天差地别的价格。 原因谁也说不准。我通常比她更愿意花钱,我敢打赌这一点体现在我的用户画像里。我是用礼品卡付款的,这肯定也有影响。也许是价格抓取更新、比价行为识别,或者某种先抛出“试探性高价”、再慢慢回落的系统。从外部来看,没人真正知道。 这正是让我担心的地方。当价格基于行为来决定时,它会激励我们进行表演式的行为——毕竟,爱吱吱作响的轮子才会被上油。 为不同的人收取不同价格并不新鲜 价格歧视几乎自古以来就存在——比如老年折扣,或者优惠券手册。商家可以通过选择性地给那些愿意多走几步、否则可能不会购买的人降价,从而多赚一点钱。 (想象一张经济学需求曲线图:有 4 个人愿意以 10 美元的价格购买,另有 1 个人只愿意以 9 美元购买。图中文字写着:折扣在蓝色区域捕获了 9 美元,而不影响绿色区域的 40 美元。) 在这个简化的需求曲线中,如果价格定为 9 美元,商家总共只能赚 45 美元。但如果对大多数人定价 10 美元,同时给那位价格敏感的“蓝色买家” 1 美元的折扣,商家就能赚到 49 美元。 基于行为的差别定价也并不是什么新做法。当你的网络服务商告诉你他们要涨价时,你会直接接受吗?还是会打电话给客服、排队等待、威胁要取消服务、被转接到“挽留部门”,然后才发现原来你“符合条件”享受一些令人兴奋的新折扣?并不是每个人都有时间或耐心跑完这一整套流程——而这正是企业这么做的原因。 当价格歧视进入数字世界时,单个案例本身并没有什么不同。但正如那句被归于斯大林的名言所说:数量本身就具有一种质的变化。技术带来的不仅是数量,还有无处不在——任何一丁点行为背景,都可能被纳入你的定价之中。 无处不在的价格歧视,其基础已经就绪 与现实世界不同,每一次数字化行为都可以被低成本地记录和分析。 一个例子就是“放弃购物车”折扣,这已经标准到 Shopify 和 Etsy 都为卖家提供了手把手的设置指南。如果你把商品加入购物车却没有结账,之后可能会收到一封提醒邮件,附带一个小折扣,推你一把完成购买。知道了这一点之后,我发现自己即便一开始就觉得价格合理,也会刻意放弃购物车,碰碰运气,看看会不会冒出个折扣来。 如果你尝试取消 Amazon Prime 会员,他们会让你穿过一连串网页和优惠,竭尽全力把你留下。上一次我取消一个小众 SaaS 工具时,也惊讶地看到了同样的流程:再免费用一周?一个月只要一美元?求你别走!我没想到一家小公司也能有这种复杂程度。当然,这并不是 100% 定制的结果——而是 Churnkey 的功劳,这是一家“留存自动化”公司,把经典的“求你别取消”的折扣流程做成了标准化产品。…
Author: aitrendtrackers@rengongzhineng.io
MCP、技能与代理(Agents)
MCP 已死,技能万岁! 最近关于 MCP 的各种误解让我有点烦,所以我决定写下这篇文章,尽量帮大家理清一些概念。让我们来拆解一下 MCP、Skills、Commands、Agents(及 Sub-Agents)。 如果你还没跟上最近的热潮:现在大家都在讨论 “skills”(技能)——这其实只是对类似 Claude Code 那样东西的一个华丽称呼。像往常一样,很多人一见新概念就宣布它能解决所有问题,所有旧技术都可以丢掉了。显然,这不是真的。本文我会分享我对它们的看法。 一、定义(Definitions) 我们先统一一下概念: Skills(技能) 是可复用的提示(prompt),可以附带脚本或其他文件等资源。系统通常会在提示开头告诉模型: 这些技能只在系统提示中以名称与描述形式出现,真正的内容(如 SKILL.md)在需要时才被“加载”(即动态插入对话上下文)。 技能可以捆绑其他辅助内容,比如脚本或说明文档。一般来说,它们在系统提示中占用的上下文非常少。 Tools(工具) 是另一类功能扩展。它们像函数调用一样暴露在代理(agent)中,比如: 工具的实现方式各不相同,可以在提示中立即暴露,也可以按需加载。工具通常比技能多占一些上下文 tokens,但差距并不大。 MCP(Model Context Protocol) 是一个“被过度设计的协议”。它能做的事情很多,但多数人只用它来把 RPC 暴露为工具(tools)。 举个例子,Sentry 的 MCP 服务器可以暴露十几个工具,其中有一个其实是一个子代理(sub-agent)。它们最终都注册为“工具”,但作用完全不同。 Agents / Sub-agents(代理与子代理)代理本质上就是被当作“工具”的独立智能体。例如 Sentry 的 MCP 暴露了一个 use_sentry 子代理,它可以访问所有 MCP 工具,但对主代理来说,它只是一个工具。 代理的优势在于上下文是隔离的——但这也是缺点。这意味着调用代理时必须把所需上下文作为参数全部传入。 有些实现会自动继承上级上下文,有些会延迟加载,还有的甚至能实现上下文分叉与复杂协作。 到这里,应该都能跟上了吧?希望没有什么有争议的。 二、Skills(技能) 你可能注意到定义中“技能”和 “MCP 工具” 看起来很相似。没错!两者都是为了让代理拥有更多能力。区别主要在于实现方式与使用场景。 最近大热的 Skills,本质上是把常用任务模板化、可共享化。比如常见任务:“简化这段代码”,或者更复杂的,“创建一个 Pull…
没有对大语言模型(LLM)做基准测试,你可能在多花 5-10 倍的钱
上个月,我帮一个朋友把他的 LLM API 成本削减了 80%。 他是一个非技术出身的创业者,正在打造一个由 AI 驱动的业务。和大多数人一样,他选择了 GPT-5,因为它是默认选项:API 已经有了、基准测试数据不错、大家都在用——那还用考虑什么呢? 但随着使用量增长,他的账单也涨了。仅 API 调用费用就达到了 每月 1500 美元。 于是我们针对他的实际提示词(prompts)对 100 多个模型 进行了基准测试。很快我们发现,虽然 GPT-5 表现稳健,但几乎从不是最划算的选择——总能找到成本更低、质量相近的替代方案。找到合适的模型后,他节省了上千美元。以下是我们如何做到的。 问题:公开基准无法预测你自己的任务表现 选择 LLM 时,大多数人只是挑一个熟悉的服务商。比如我习惯用 Anthropic,根据任务选择 Opus、Sonnet 或 Haiku。稍微讲究点的,会查查各种排行榜:Artificial Analysis、LM Arena、GPQA Diamond、AIME、SWE Bench、MATH 500、Humanity’s Last Exam、ARC-AGI、MMLU…… 但让我们面对现实:这些指标并不能预测模型在你具体任务上的表现。 一个在推理类 benchmark 中得分最高的模型,可能在损害费用估算上表现平平,或在多语言客服、网页数据提取等方面完全不行。 它们充其量只能作为“粗略参考”,而且完全没有考虑成本。 唯一真正知道性能的方法,就是在你自己的提示词上测试,同时考虑质量、成本和响应延迟。 自建基准测试 为了弄清楚这一点,我们自己搭建了基准系统。以下以一个客户支持场景为例: 步骤 1:收集真实示例 我们通过 WHAPI 提取了真实的客服对话:包含历史聊天记录、客户的最新消息,以及朋友实际回复的内容。他还提供了手动与自动生成的提示模板。基于此,我们选取了约 50 个聊天案例——既包括常见问题,也包含希望模型能正确应对的特殊情况。 步骤 2:定义预期输出 每个示例的“理想答案”就是朋友实际回复的内容。我们还定义了具体的评分标准,例如:…
非常规 PostgreSQL 优化技巧在 PostgreSQL 中加速查询的创造性思路
在进行数据库优化时,开发者往往会拿出那套老工具箱:改写查询、在列上加索引、做反规范化、执行 analyze、vacuum、cluster,然后重复这一过程。这些传统手段确实有效,但有时候,如果能跳出常规思路,创造性地思考,往往能获得意想不到的优化效果。 本文将介绍 PostgreSQL 中一些非常规的优化技巧。 图像来自 abstrakt design 目录 基于 Check 约束消除全表扫描 假设我们有一个用户表: 这个表保存用户的姓名以及他们使用的套餐类型。由于套餐只有 “free” 和 “pro” 两种,我们添加了一个检查约束。 生成一些数据并分析表: 现在系统中有 10 万个用户。 无心之失 现在你要让分析师通过报表工具访问这张表。你为某位分析师开通了访问权限,他写了第一条查询: 查询结果为空,这让分析师感到困惑:怎么会没有 “Pro” 套餐的用户呢? 原来套餐名是 “pro”,而不是 “Pro”。这是个很常见的误会。但这个小错误代价不小。 执行计划如下: PostgreSQL 扫描了整个表!但是我们有个检查约束规定 plan 只能是 ‘free’ 或 ‘pro’,数据库理应知道这个条件永远为假,为什么还要扫描呢? 使用 constraint_exclusion PostgreSQL 其实能做到跳过永远为假的查询,但默认没有开启。要让 PostgreSQL 在生成执行计划时考虑约束,需要打开参数 constraint_exclusion: 再次执行同样的查询: 这次 PostgreSQL 直接跳过了表扫描,因为它知道该条件永远为假。 何时使用 constraint_exclusion 默认情况下,constraint_exclusion 仅对基于继承的分区表启用,以支持“分区修剪”。如果全局开启,会带来明显的规划开销。 文档解释说,对于简单查询,评估所有约束条件的代价可能高于它带来的性能收益。但在 BI…
大型语言模型与软件开发职业
在软件开发领域,最稳健的职业发展路径通常包括两点:(1)在解决问题时务实且高效;(2)不要把现有代码当作“黑箱”。 第一点意味着,作为一个稳健的开发者,你应该会熟练地使用现有的技术栈,比如 PostgreSQL 或 MySQL(或其他数据库)、Rails 或 .NET(或其他框架),并且懂得借鉴来自 Stack Overflow 或大型语言模型(LLMs)的代码。第二点则意味着你要有好奇心,愿意随着时间的推移去深入理解网页服务器、数据库、操作系统和浏览器的工作原理。这样,当你在借鉴他人代码和思路时,才能做出更好的判断与调整。 从更宏观的角度看,借助 LLM 编程,本质上与使用 Rails 或在 Stack Overflow 上查找代码并无根本不同。它更快、更直接,但归根结底仍是人类在“改写现有代码”。 那些只愿意把现有框架、库或应用程序当作黑箱看待的人,本来在求职与留任方面就不具竞争力。而那些真正有技术深度的公司,总是倾向于招聘理解基础原理的开发者,因为他们要么:(1)在足够大的规模上运行,应用程序的实现方式会直接影响性能与稳定性;要么(2)他们本身就在构建 PostgreSQL、MySQL、Rails、.NET、Stack Overflow 或 LLM 等底层技术。 软件行业的发展一直遵循一个方向——持续降低中小企业(SMBs)乃至大型团队雇佣开发者以解决问题或提升效率的需求。LLM 的出现只是这场“自动化进程”的延续。但这并不意味着企业就不再需要开发者。当业务复杂度或客户规模扩大到一定程度时,企业仍然必须招聘开发者来支撑系统的成长。 那些依赖软件基础原理的工作,不会因为 LLM 的普及而不再依赖这些原理。相反,随着越来越多非开发者开始使用 LLM 来构建工具、系统与应用,真正懂得软件底层原理的工程师反而会变得更重要——因为他们将承担维护、优化、扩展这些基础系统的责任。 总而言之,如果你热爱软件开发,不必担心“有趣的开发工作”会消失。继续学习,继续动手——去编译器、数据库、操作系统这些核心领域探索;去寻找那些因为规模或复杂性而需要扎实基础的公司;或者去挑战那些在底层上构建未来的团队。真正有趣的工程,总是存在于那些让基础原理再次重要的地方。
Matic 的家庭故事-吸尘器能引发一场机器人革命吗?
“所有干净的家都相似;而每个凌乱的家则各有各的混乱。” 2017 年,来自 Nest 与 Flutter 的资深工程师 Navneet Dalal 与 Mehul Nariyawala 环顾四周,发现当时有超过 200 家自动驾驶汽车创业公司,却没有任何一家认真致力于解决家庭中最重复、最耗时的事务。家庭成员花在家务上的时间是驾驶的三到四倍,而我们拥有的只是那些圆盘状、只会撞家具的机器人。受到《杰森一家》中家用机器人 Rosie 的启发,他们萌生了一个不同的愿景——打造一款能理解、能导航、能在我们杂乱、复杂、却又极具私密性的生活空间中自主清洁的家庭机器人:Matic。 走进加州山景城的 Matic 总部,首先映入眼帘的是一面美国国旗,接着是约七十台桌面电脑前忙碌的工程师、实习生与生产助理。地面上摆放着多个用于测试和演示的 7 英寸地面机器人,它们在由木板分隔、铺有地毯与家庭障碍物的不规则方格中穿梭。墙上的大屏幕显示着“清洁总面积(百万平方英尺):54.0”“上周活跃机器人数量:2160”等数据。墙上还挂满了满意客户的感谢信。Mehul 指着那些与 Matic 一起成长的孩子与宠物说:有个小女孩曾经害怕机器人,直到他们寄给她一个更小的玩具版本,她用贴纸装饰了它。如今的 Matic 随机附送“可爱装饰贴纸”。 往右拐是食堂,侧墙上有一面“时间线墙”,展示着从 2018 到 2025 的原型与照片。“我们快没空间了,也许得把整个房间都变成时间线墙。”Mehul 半开玩笑地说。更往里走,是生产区。那里同样悬挂着美国国旗。员工大多在现场走动作业,一排排 Matic 正在不同阶段装配——有的已停用,有的待发货,有的半组装状态。这里的房间用于测试不同环境(炎热、潮湿、寒冷)、噪音等级与镜头调校。另一间房间正进行面试,外面摆满了 NVIDIA 计算机,用于运行 1500 个虚拟家庭环境的仿真。整栋单层建筑里有上千台 Matic,因当月摄像头发货延迟,停在装配流程的第四步。 Matic 体验当客户订购 Matic 时,不需要自己把它从箱子里拿出来——它会自动滑出并向你问好:“你好,Arena Mag!”或者“你好,[你的姓氏]。” 机器人会像初到新家的访客一样先进行探索。你可以通过应用程序控制它。它会在 15–20 分钟内完成一栋约 3000 平方英尺的住宅的三维建模,学习房间布局、地板类型、地毯、电线与常见障碍。用户可以为各个房间标注名称——厨房、客厅、卧室——然后通过应用精确指示它清扫或拖地的位置。如果遇到地毯,Matic 会自动避开,不会误拖。整个过程无需过多干预。 建图并非一次性操作。就像常来你家的客人会越来越熟悉环境一样,Matic 会不断更新认知。如果搬家,也只需重置或让它重新建图即可。它能轻松识别新环境并管理多层空间。 更令人惊讶的是,它能在黑暗中工作。机器人配备了 RGB-IR…
现在代码很便宜,软件依然不便宜
构建软件的入门门槛已坍塌,但要构建“有意义的东西”的门槛一寸未移。 Claude Code 和 Claude Opus 4.5 把油直接泼进了火里。LLM 工具以前就有,但现在比以往任何时候都更好,所以更多人开始关注。不过我们并没有进入 SaaS 的黄金时代。我们正进入一个“个人、一次性软件”的时代——工程从“写代码”转向“塑造系统”,也正因如此,工程师仍然不可或缺。 现代开发的转向Claude Code 最近铺满了我的信息流,而且理由充分。有趣的不只是开发者都在用它——而是此前依赖 Lovable 或 Replit 这类平台的“构建者”和 maker 们,正在迁移到它上面。 别误会,那些工具仍然非常适合快速交付。但我们正在见证一个清晰的转变:人们重新发现了以 CLI 为先的工作流本身的优雅。一旦把交互移到终端里,抽象层就被压薄了。你不再只是沿着托管式 UI 的“幸福路径”往前走;你在亲手掌舵。 入门门槛的崩塌人们实际上在用这些工具做什么?环顾四周,答案是:几乎什么都做。事实上,我们已经来到饱和点。一方面,我们真切地见证了软件创造的民主化。入门门槛几乎消失。史上第一次,非开发者不只是软件的消费者——他们是自己工具的建筑师。 过去,如果你有一个特定问题,你会花好几个小时去找一款能解决 80% 需求的 SaaS。今天,工作流变了。人们打开一个 CLI 或语音界面,直接描述自己需要什么。我们正在看到“个人软件”的激增: 一款按特定预算方式量身定制的订阅跟踪器一个只解决某个极其小众数据录入问题的 Chrome 扩展一个界面完全按照用户心意设计的健身应用这是一场巨变。软件正从“你购买的商品”,变成“你生成的个人效用”。 从 SaaS 到“草稿本”我们正进入一个新的软件开发时代,其目标并不总是“长寿”。多年来,行业痴迷于构建“平台”和“生态”,但潮水正在转向更为短暂的东西。我们正从 SaaS 转向“草稿本”(scratchpads)。 许多新软件就不是为了永远存在。事实上,恰恰相反。人们越来越多地构建只为一次性解决单一、具体问题的工具——然后把它丢弃。这是一次性效用型的软件,为“当下”而设计,而非遥远的“以后”。 让这一切今天变得可行的是一种具体的技术哲学:CLI 优先、数据本地、零上手成本。当你移除注册、配置数据库、或穿行复杂 UI 的摩擦,构建一个工具的成本就低到“临时性”反而成了特性,而不是缺陷。如果花五分钟就能为一次性任务做出一个定制方案,你就不需要它长久存在。 这与传统 SaaS 模式形成了鲜明对比。SaaS 天生就是为留存、锁定与扩张而优化的。它的商业模式是把你留在生态里并扩大你的足迹。反之,定制化的小工具追求的是即时性和掌控。它们不关心你作为客户的生命周期价值;它们只关心把眼前的任务办成。 在很多方面,这也是对电子表格最初用法的回归。你不会打开表格去构建一个永久、跨多年的数据库;你把它当草稿本,用来推理问题、算出结果,然后继续前行。 在这个新格局里,Claude Code 对开发者而言就像 Excel——一件强大而灵活的即刻解决问题的工具——而不是对创业者而言的 Shopify,那是为了成为业务的长期地基。它关乎把事情做成,然后让工具退场。…
当谷歌把门锁上,三位 MIT 学生把锁撬开了
当谷歌把 AlphaFold 3 锁在商业限制之后,三位 MIT 博士生在四个月内把它重建了。如今,Boltz 拿到 2800 万美元融资、与辉瑞达成合作,并押注开源能够承载药物发现的基础设施。 去年春天,DeepMind 发布了 AlphaFold 3。你已经对流程很熟了:蛋白质折叠,解决了。药物结合,能预测了。DNA 相互作用,能建模了。哈萨比斯(Hassabis)跑媒体巡回。论文登上《自然》。 但这一次有些不一样。 下载论文的研究者开始阅读许可条款。代码:上锁。权重:受限。商业应用:禁止。如果你想预测药物如何与蛋白结合——也就是制药公司真正愿意付钱的那件事——你必须通过 Isomorphic Labs。那是 DeepMind 的药物发现分拆公司。手里握着与礼来和诺华 30 亿美元的意向性交易。 到了 12 月,三位 MIT 的博士生已经对该架构进行了逆向工程,并发布了他们自己的版本。他们把它放在 GitHub 上,采用 Apache 2.0 许可。任何人都可以下载。任何人都可以用于商业用途。他们把它称作 Boltz-1。 谷歌制造的真空真正惹怒人的地方在这里。 回到 2021 年,谷歌还很“友好”。AlphaFold 2 以 Apache 2.0 许可证发布,这意味着你可以随意使用它。复刻、用你自己的数据训练、构建产品、销售这些产品。结构生物学一夜之间成了免费的基础设施。默克的研究员和孟买狭小实验室里的研究生获得了同样的工具。辉瑞也是。圣迭戈一个在车库里办公的两人初创公司也是。没有人有优势,因为每个人都有访问权。 然后谷歌改变了规则。 AlphaFold 3 更强——它可以处理药物-蛋白相互作用,正是制药公司所需。但仅限学术用途。商业使用不允许。也不允许自行训练版本。 那些真正能通往“有用出口”的门?锁上了。 《自然》开始紧张。期刊发表了一篇社论,反思自己在没有配套代码的情况下发表论文的决定。研究者指出了显而易见的理由:Isomorphic Labs 在内部为这些价值十亿美元的制药合作使用 AlphaFold 3。发布模型会将相同的能力拱手让给竞争对手。 Gabriele Corso、Jeremy Wohlwend…
AI 编程无处不在但并非所有人都信服
取决于你问的是谁,AI 驱动的编码要么正为软件开发者带来前所未有的生产力提升,要么就是在产出大量设计粗糙的代码,分散他们的注意力,并为软件项目埋下严重的长期维护隐患。 问题在于,就在当下,我们并不容易判断哪种说法才是真的。 随着科技巨头向大型语言模型(LLMs)投入数十亿美元,编码一直被吹捧为这项技术的“杀手级应用”。微软 CEO 萨提亚·纳德拉和谷歌 CEO 桑达尔·皮查伊都声称,他们公司大约四分之一的代码如今由 AI 生成。而在 3 月,Anthropic 的 CEO 达里奥·阿莫代(Dario Amodei)预测,在六个月内,90% 的代码都将由 AI 编写。这是一个既诱人又显而易见的用例。代码是一种语言,我们需要大量代码,而手工编写代价高昂。并且判断它是否奏效也很容易——运行程序,是否可用立刻便知。 热衷于突破人类瓶颈的高管们正在推动工程师拥抱一个由 AI 驱动的未来。但在与 30 多位开发者、技术高管、分析师和研究人员交谈后,发现,实际图景并不像看上去那样简单。 对一些一线开发者而言,最初的热情正在消退,因为他们不断撞上技术的局限。而且,随着越来越多研究表明所谓的生产力提升可能是海市蜃楼,一些人开始怀疑皇帝是否真的穿了衣服。 不过,进展的速度又让局面更加复杂。新模型持续发布的鼓点意味着这些工具的能力与“怪癖”在不断演变。它们的效用也常常取决于所应用的具体任务,以及围绕它们建立起来的组织结构。所有这一切让开发者在期望与现实之间的落差中艰难导航。 如果借用狄更斯的话,现在是 AI 编程的“最好的时代”还是“最坏的时代”?也许两者兼而有之。 一个快进中的领域如今很难避开 AI 编程工具。市面上有令人眼花缭乱的产品——既有来自 Anthropic、OpenAI、谷歌等模型开发商的,也有来自 Cursor、Windsurf 等公司、把这些模型包装进打磨精良的代码编辑软件里的。根据 Stack Overflow 2025 年开发者调查,采用速度正在迅速提升,如今有 65% 的开发者至少每周使用一次这些工具。 AI 编程工具大约在 2016 年出现,但随着 LLM 的到来而“加装了涡轮”。早期版本几乎只是程序员的自动补全,提示下一步该输入什么。如今,它们可以分析整个代码库、跨文件编辑、修复 bug,甚至生成解释代码工作方式的文档。所有这些都通过基于自然语言提示的聊天界面来引导。 “代理”(agents)——能接受高层次计划并自主构建完整程序的 LLM 驱动编码工具——代表了 AI 编程的最新前沿。这一跃进得益于最新的推理模型:它们能一步步解决复杂问题,并且关键在于,能够调用外部工具完成任务。“这就是模型不仅能‘谈论如何编码’,而是真正‘能够编码’的方式,”Anthropic 编码代理 Claude…
人工智能治疗师的崛起四本新书探讨全球心理健康危机与算法治疗的黎明
技术员正在调整 Mark I 感知机的线路——这是一个早期的人工智能系统,由一位心理学家而非数学家设计。 我们正处于一场全球心理健康危机之中。根据世界卫生组织的数据,全球有超过十亿人患有心理健康问题。焦虑与抑郁的发病率在许多群体中不断上升,尤其是在年轻人中;而每年有数十万人因心理疾病而失去生命。 在公众对可获得且负担得起的心理健康服务的需求日益增长的背景下,人们自然会将希望寄托于人工智能。如今,数百万人正在主动寻求来自热门聊天机器人(如 OpenAI 的 ChatGPT、Anthropic 的 Claude)或专门的心理健康应用(如 Wysa 与 Woebot)的治疗支持。从更宏观的层面来看,研究人员也在探索人工智能在心理健康领域的潜力——例如,通过可穿戴设备和智能装置监测行为与生理指标、分析海量临床数据以获得新的洞察,甚至协助心理健康专业人员以防止职业倦怠。 然而,这场几乎不受监管的实验迄今取得的结果却喜忧参半。许多人在基于大型语言模型(LLMs)的聊天机器人中找到了安慰,一些专家也看到了它们作为“治疗师”的潜力;但与此同时,也有用户因 AI 的“幻觉”与迎合性言语而陷入混乱与妄想的漩涡。更令人痛心的是,一些家庭指控聊天机器人在其亲人死亡事件中起到了推波助澜的作用,由此引发了针对这些科技公司的诉讼。2025年10月,OpenAI 首席执行官萨姆·阿尔特曼在博客中透露,约有 0.15% 的 ChatGPT 用户“在对话中出现明显的潜在自杀计划或意图的迹象”。换算下来,仅这一款软件每周就有约一百万人与之分享绝望情绪。 这一切的现实后果在2025年集中爆发——关于人机关系、语言模型安全边界脆弱性、以及用户在经济驱动的公司产品中泄露隐私等问题,引发了广泛的社会反思。 数位作者早已预见了这一临界点。他们的新书提醒我们:尽管当下的技术发展与社会事件看似混乱且迅猛,这一切其实根植于关于“照护、科技与信任”的更深层历史。 大型语言模型常被称为“黑箱”,因为没有人能确切说明它们的输出过程。它们算法复杂、训练数据庞大,因此其内部机制对人类而言几乎是不可见的。而在心理健康领域,人类大脑也常被称作另一种“黑箱”——心理学与精神医学同样面对一个根本困境:无法真正看清他人内心,更难精确界定痛苦的根源。 如今,这两种“黑箱”正在互相作用,生成不可预测的反馈循环。这不仅让心理疾病的成因更加模糊,也让“治愈”的路径更难辨明。对这些现象的焦虑,既源于AI技术的飞速发展,也唤起了早在20世纪60年代就由麻省理工学院计算机科学家约瑟夫·魏岑鲍姆提出的警告——他在那个年代就反对电脑化的心理治疗。 《机器人医生:当医生让我们失望——AI如何拯救生命》 作者:夏洛特·布利斯耶鲁大学出版社,2025 医学哲学家夏洛特·布利斯在《机器人医生》一书中提出了一个相对乐观的观点:AI 有潜力缓解医疗系统的压力并改善病患体验。她在书中明确指出,读者若期待她写一封“献给科技的情书”,恐怕会失望。布利斯认为,AI 模型或许能帮助减轻患者的痛苦,同时缓解医疗人员的疲惫。 “卫生系统正濒临崩溃,”她写道,“病患的增加与医生的短缺,使得错误滋生的温床愈发肥沃。医生越少、病人越多,等待时间越长,我们的挫败感就越深。” 布利斯认为,AI 不仅可以减轻医生的巨大工作量,还能化解患者与医护人员之间长期存在的紧张关系。例如,许多人因为害怕被评判而不愿就医——尤其是在心理健康问题上。AI 的匿名与无偏见特性,或许能让更多人敞开心扉。 但她也警告,AI 治疗师可能给出不一致甚至危险的回应,隐私问题更是悬而未决——毕竟,AI 公司并不受医疗保密法规(如 HIPAA)的约束。 布利斯的写作动机也带有个人色彩:她的两位兄弟患有一种无法治愈的肌肉萎缩症,其中一人等待确诊的过程长达数十年。在撰写此书期间,她在短短半年内失去了伴侣与父亲。她写道:“我亲眼见证了医生的智慧与善意,也见证了照护体系中可能出错的地方。” 《硅制心理医师:AI如何让世界成为一座精神病院》 作者:丹尼尔·奥伯豪斯麻省理工出版社,2025 丹尼尔·奥伯豪斯在《硅制心理医师》中延续了类似的思考。他以妹妹的离世为开端,探讨科技是否有可能减轻精神疾病的负担。 “也许这些数字足迹本能为医生提供线索,”他写道,“假如算法能通过她的手机或电脑察觉到她的痛苦,是否能更早干预?而她是否愿意被这样‘监控’?” 这种“数字表型学”的概念——即通过个人数字行为识别心理状态——看似优雅,但在精神AI(PAI)领域却潜藏风险。奥伯豪斯指出,精神医学本身尚未彻底理解心理疾病的成因,而AI 可能只是将这种不确定性数据化。他形容:“这是将物理学嫁接到占星术上的逻辑错误。” 他担忧,过度依赖AI分析可能使人类治疗师的判断力退化,甚至导致患者陷入“数字监狱”。在这种“算法精神病院”中,隐私、自由与尊严都被数据取代。 “算法的逻辑会让我们都成为数字病人,”他写道,“不需要铁栏,不需要白墙——只要有互联网,‘精神病院’就无处不在。” 《聊天机器人疗法:AI心理治疗的批判性分析》 作者:欧因·富勒姆劳特利奇出版社,2025 研究员欧因·富勒姆在《聊天机器人疗法》中从学术角度分析了AI治疗的商业逻辑。他指出,资本主义驱动的新科技常常将用户利益置于市场垄断之后。 他强调,AI治疗的成功离不开“赚钱”与“治愈”这两股力量的纠缠。用户越受益,企业越获利;而每次“治疗”都会产出可供商业利用的数据。这种循环让“照护”与“剥削”难以分割。 《赛克(Sike)》 作者:弗雷德·伦策塞拉顿出版社,2025 小说《赛克》将这一逻辑化作文学隐喻。故事讲述伦敦青年艾德里安使用AI心理师“赛克”处理焦虑。赛克通过智能眼镜无时无刻地分析他的行为、言语与生理反应,成为终极“数字表型仪”。…