最近,MIT CSAIL、MyShell.ai 和清华大学的研究人员联合开发了一款名为 OpenVoice V2 的划时代文字转语音模型,这款工具可以跨语言进行声音克隆。想象一下,你只需一小段音频样本,这款工具就能模仿出说话人的声音,而且无需对该说话人进行额外训练。它不仅支持英语、西班牙语、法语、中文、日语和韩语,还能在不依赖参考说话者风格的情况下,精细控制声音的各种风格,包括情感和口音。
传统的自回归模型虽然在复制音色方面效果显著,但计算成本高,处理速度慢,而非自回归方法如 YourTTS 和 Voicebox 虽然推理速度更快,但在风格控制方面表现不佳。此外,跨语言的声音克隆还需要庞大的数据集,这限制了新语言的加入。封闭源代码的项目也阻碍了领域内的合作进展。
OpenVoice V2 通过将音色克隆与风格和语言控制分离,实现了操作的简化。该模型包括一个基础的说话者文字转语音模型和一个音色转换器。通过这种结构,OpenVoice V2 不仅在实现跨语言克隆的同时维持了计算效率,还能实时进行声音合成。

总的来说,OpenVoice V2 在提高音频质量、支持多种语言的同时,还免费向商业用户开放了 V1 和 V2 的使用权。通过这些创新,OpenVoice V2 不仅在音色克隆上取得了突破,还在风格控制和跨语言克隆方面设立了新的标杆。