亚马逊的研究人员训练出了迄今为止最大的文本转语音模型,他们声称这个模型展现出了“新兴”品质,提高了其自然地讲述甚至复杂句子的能力。这一突破可能正是这项技术需要的,以跳出令人不安的谷地。(详细的去看:BASE TTS)
这些模型的成长和进步是必然的,但研究人员特别希望看到一旦语言模型达到一定规模后,我们观察到的能力飞跃。出于我们不知道的原因,一旦大型语言模型(LLMs)增长到一定点,它们开始变得更加健壮和多才多艺,能够执行它们未经训练的任务。
这并不是说它们获得了自我意识或任何东西,只是说过了某个点,它们在某些对话AI任务上的表现呈现出曲棍球棒式增长。亚马逊AGI团队——他们的目标不言而喻——认为文本转语音模型的增长也可能出现同样的情况,他们的研究表明这确实是事实。
这个新模型被称为Big Adaptive Streamable TTS with Emergent abilities,简称BASE TTS。这个模型的最大版本使用了10万小时的公共领域语音,其中90%是英语,剩余的是德语、荷兰语和西班牙语。BASE-large有9.8亿参数,似乎是这一类别中最大的模型。他们还训练了基于10000小时和1000小时音频的4亿和1.5亿参数模型进行比较——目的是,如果其中一个模型显示出新兴行为,而另一个则没有,你就有了这些行为开始出现的范围。
事实证明,中等大小的模型显示出团队所寻找的能力跳跃,不一定在普通的语音质量上(它的评价更好,但只多了几分),而是在他们观察和测量到的新兴能力集上。下面是论文中提到的一些棘手文本示例:
- 复合名词:贝克汉姆一家决定租一座迷人的石造古雅乡村度假小屋。
- 情绪:“哦我的天哪!我们真的要去马尔代夫吗?那太不可思议了!”珍妮跳着脚,兴奋地尖叫。
- 外来词:亨利先生以其出色的备餐工作而闻名,他策划了一顿七道菜的大餐,每一道都是杰作。
- 副语言学(即可读的非词):“嘘,露西,嘘,我们不能吵醒你的弟弟,”汤姆低声说,他们踮着脚尖走过婴儿房。
- 标点符号:她收到了弟弟的一条奇怪短信:‘家里紧急情况;请尽快来电!妈妈和爸爸很担心……#家庭事务。’
- 问题:但是脱欧问题仍然存在:经过所有的考验和磨难,部长们会及时找到答案吗?
- 句法复杂性:2022年,最近获得终身成就奖的德莫亚主演的电影尽管评价褒贬不一,但却是票房大片。
“这些句子被设计来包含挑战性任务——解析花园路径句子,对长篇复合名词施加短语重音,产生情绪化或耳语般的语音,或为像‘qi’这样的外来词或‘@’这样的标点符号产生正确的音素——所有这些BASE TTS都没有明确训练过,”作者写道。
这些特性通常会使文本转语音引擎出错,它们可能会发音不准确、跳过单词、使用奇怪的语调或犯下其他错误。BASE TTS仍然遇到了困难,但它比其同类模型——像Tortoise和VALL-E——表现得好得多。
他们为此模型制作的网站上有一些这些难处理文本被自然朗读的例子。当然这些例子是由研究人员挑选的,所以必然是精挑细选的,但无论如何都令人印象深刻。如果你不想点击查看,这里有几个例子:
哔哩哔哩音乐https://www.bilibili.com/audio/au4276593?type=1
因为这三个BASE TTS模型共享一个架构,很明显模型的大小和其训练数据的广度似乎是模型能够处理上述复杂性的原因。请记住,这仍然是一个实验模型和过程——不是一个商业模型或任何东西。后续研究将必须确定新兴能力的拐点以及如何有效地训练和部署结果模型值得注意的是,这个模型是“可流式传输”的,正如名称所示——意味着它不需要一次生成整个句子,而是可以逐刻以相对低的比特率进行。团队还尝试将语音元数据,如情感性、韵律等,打包在一个单独的、低带宽流中,这可能伴随着普通音频。
看来,文本转语音模型可能会在2024年迎来突破性时刻——正好赶上选举!但不可否认,这项技术的实用性,特别是在可访问性方面。团队确实注意到,由于担心坏人利用它,他们选择不公开模型的源代码和其他数据。不过,这只是时间问题,猫终将从袋中逃出。