背景
多年来,亚马逊的语音助手Alexa一直是许多家庭的常用工具。虽然大部分用户仅用它来播放音乐、设定定时器、查询天气,但它在这些任务上表现稳定。然而,自从2023年ChatGPT推出可流畅对话的语音模式后,业界普遍认为Alexa需要一次“换脑手术”——用支持大规模语言模型(Large Language Model, LLM)的新AI系统取代旧架构,以满足更复杂的需求。
亚马逊同样意识到这一点,并在过去几年里加紧推进Alexa的升级计划。不过,替换语音助手的AI系统远非简单更换模型那么容易,尤其是在需要兼容大量现有服务和数以百万计设备的情况下。新系统既要保留旧Alexa在基础任务上的可靠性,又要融入生成式AI的自然对话能力。
经过长时间的技术攻关与内部调整,全新的Alexa+终于面向更多用户开放。Prime会员可免费使用,非会员则需每月支付19.99美元。
新特性与优点
Alexa+的对话体验明显提升。其合成语音更加自然,语调和节奏更接近真人,共提供八种声音选择,并支持不必每次交互都唤醒设备,从而实现连续对话。
- 多步骤指令处理更强:例如一次性设定多个厨房定时器,或生成旅行行程并发送到邮箱等复杂任务,都能顺利完成。
- 新增能力:可直接预订餐厅、为儿童生成并朗读长篇故事等。
缺陷与问题
尽管具备新功能,Alexa+在可靠性上却不如预期,甚至在一些基础任务上落后于旧版本:
- 执行失败:例如取消闹钟的简单指令被忽略。
- 功能错误:尝试让其朗读用户通过邮件发送的研究论文时,系统返回“文件未找到”错误。
- 事实幻觉:在推荐商品时引用了错误信息,如误报某品牌擦菜器为推荐型号。
- 部分功能尚未开放:包括基于用户进入房间触发多动作的“例行程序”等。
亚马逊Alexa与Echo部门副总裁Daniel Rausch表示,这些问题将在Alexa+更广泛上线和更多功能启用后逐步修复。
技术挑战
Rausch解释称,旧版Alexa是基于复杂的规则式确定性算法构建的,每个功能都需单独编程调用工具与接口。而生成式AI模型是“随机型”(stochastic),依赖概率而非严格规则,这让Alexa更具创造性,但降低了可预测性与稳定性。
- 性能瓶颈:早期内部演示中,Alexa+播放一首歌竟耗时超过30秒。
- 冗长输出:在初期测试中,设置一个10分钟厨房定时器可能引发500字的“厨房定时器历史”讲解。
为解决这些问题,团队花费数年时间将70多个AI模型(包括亚马逊自研与外部提供,如Anthropic的Claude)整合到一个语音接口中,并通过调度系统将请求分配给最合适的模型。
用户习惯转变
多年来,用户已习惯用特定指令与Alexa交互,而Alexa+允许用户像与真人交流一样对话,这需要一定适应过程。Rausch认为,大部分用户最终会适应新模式,但这需要时间。
前景与现实
当前的Alexa+仍处于过渡阶段,许多功能尚未完善,生成式AI与旧系统的融合难度超出预期。作者认为,这并不意味着生成式AI无法胜任个人语音助手角色,而是将其与庞大的遗留系统结合在一起是一项极具挑战的工程,必须经历一段调试期。
暂时,作者选择退回使用旧版Alexa,把测试工作交给更愿意尝鲜的用户。在人工智能领域,与在人类世界一样,智力水平固然重要,但真正关键的是如何运用它。