OpenVoice：多功能即时语音克隆

OpenVoice，一种多功能的即时语音克隆方法，仅需参考发言人的一小段音频片段，即可复制其声音并以多种语言生成语音。OpenVoice能够在复制参考发言人的音色基础上，实现对声音风格的细粒度控制，包括情感、口音、节奏、停顿和语调。此外，OpenVoice还实现了零样本跨语言的语音克隆，适用于未包含在大规模训练集中的语言。OpenVoice在计算效率上也表现出色，其成本仅为市面上提供相似但性能较差服务的商业API的数十分之一。特色是，

精准音色克隆。OpenVoice能够精准克隆参考音色，并以多种语言和口音生成语音。
灵活的声音风格控制。OpenVoice实现了对声音风格的细粒度控制，如情感和口音，以及包括节奏、停顿和语调在内的其他风格参数。
零样本跨语言语音克隆。生成的语音或参考语音的语言无需出现在大规模多语言训练数据集中。

技术报告和源代码可在以下链接找到：https://arxiv.org/pdf/2312.01479.pdf 和 https://github.com/myshell-ai/OpenVoice

Subscribe 订阅