Alexa获得“人工智能大脑移植”后究竟变得多聪明？

背景
多年来，亚马逊的语音助手Alexa一直是许多家庭的常用工具。虽然大部分用户仅用它来播放音乐、设定定时器、查询天气，但它在这些任务上表现稳定。然而，自从2023年ChatGPT推出可流畅对话的语音模式后，业界普遍认为Alexa需要一次“换脑手术”——用支持大规模语言模型（Large Language Model, LLM）的新AI系统取代旧架构，以满足更复杂的需求。

亚马逊同样意识到这一点，并在过去几年里加紧推进Alexa的升级计划。不过，替换语音助手的AI系统远非简单更换模型那么容易，尤其是在需要兼容大量现有服务和数以百万计设备的情况下。新系统既要保留旧Alexa在基础任务上的可靠性，又要融入生成式AI的自然对话能力。

经过长时间的技术攻关与内部调整，全新的Alexa+终于面向更多用户开放。Prime会员可免费使用，非会员则需每月支付19.99美元。

新特性与优点
Alexa+的对话体验明显提升。其合成语音更加自然，语调和节奏更接近真人，共提供八种声音选择，并支持不必每次交互都唤醒设备，从而实现连续对话。

多步骤指令处理更强：例如一次性设定多个厨房定时器，或生成旅行行程并发送到邮箱等复杂任务，都能顺利完成。
新增能力：可直接预订餐厅、为儿童生成并朗读长篇故事等。

缺陷与问题
尽管具备新功能，Alexa+在可靠性上却不如预期，甚至在一些基础任务上落后于旧版本：

执行失败：例如取消闹钟的简单指令被忽略。
功能错误：尝试让其朗读用户通过邮件发送的研究论文时，系统返回“文件未找到”错误。
事实幻觉：在推荐商品时引用了错误信息，如误报某品牌擦菜器为推荐型号。
部分功能尚未开放：包括基于用户进入房间触发多动作的“例行程序”等。

亚马逊Alexa与Echo部门副总裁Daniel Rausch表示，这些问题将在Alexa+更广泛上线和更多功能启用后逐步修复。

技术挑战
Rausch解释称，旧版Alexa是基于复杂的规则式确定性算法构建的，每个功能都需单独编程调用工具与接口。而生成式AI模型是“随机型”（stochastic），依赖概率而非严格规则，这让Alexa更具创造性，但降低了可预测性与稳定性。

性能瓶颈：早期内部演示中，Alexa+播放一首歌竟耗时超过30秒。
冗长输出：在初期测试中，设置一个10分钟厨房定时器可能引发500字的“厨房定时器历史”讲解。

为解决这些问题，团队花费数年时间将70多个AI模型（包括亚马逊自研与外部提供，如Anthropic的Claude）整合到一个语音接口中，并通过调度系统将请求分配给最合适的模型。

用户习惯转变
多年来，用户已习惯用特定指令与Alexa交互，而Alexa+允许用户像与真人交流一样对话，这需要一定适应过程。Rausch认为，大部分用户最终会适应新模式，但这需要时间。

前景与现实
当前的Alexa+仍处于过渡阶段，许多功能尚未完善，生成式AI与旧系统的融合难度超出预期。作者认为，这并不意味着生成式AI无法胜任个人语音助手角色，而是将其与庞大的遗留系统结合在一起是一项极具挑战的工程，必须经历一段调试期。

暂时，作者选择退回使用旧版Alexa，把测试工作交给更愿意尝鲜的用户。在人工智能领域，与在人类世界一样，智力水平固然重要，但真正关键的是如何运用它。

Subscribe 订阅