Meta Audiobox：利用语音和自然语言提示生成音频

Meta推出了名为Audiobox的全新基础音频生成研究模型。这款Audiobox能够通过语音输入和自然语言文本提示的结合，生成各种声音和音效，轻松为多种用途创造定制音频。作为我们对负责任研究行为承诺的一部分，我们即将邀请研究人员和学术机构申请专项资金，用于开展与Audiobox相关的安全性和责任研究。

首个跨任务通用的语音生成AI模型，具有最先进的性能借助基础多模态模型，让世界通过语音翻译更加紧密联系开放源码AudioCraft：简单且对所有人开放的音频生成AI 今年早些时候，Meta推出了Voicebox，一种最先进的AI模型，能够执行如编辑、采样、风格化等语音生成任务。它在生成AI方面取得了突破，可以通用于未经特定训练的语音生成任务，并以最先进的性能执行这些任务。

现在，作为Voicebox的继任者，Audiobox通过统一语音、音效（如狗叫、汽车喇叭、雷声等短暂、离散的声音）和声景的生成和编辑能力，进一步推进了音频生成AI。Audiobox还支持多种输入方式，以最大限度地控制每个用例。

最值得注意的是，Audiobox允许人们使用自然语言提示来描述他们想要生成的声音或语音类型。例如，如果有人想要生成声景，他们可以给模型一个文本提示，比如“奔流的河流和鸟儿的啼鸣”。

描述并生成声音：用户可以提供所需声音的简短描述，并要求模型生成它。类似地，要生成一种声音，用户可能会输入，“一个年轻女性以高音调和快速节奏说话”。

描述并生成语音：用户可以提供所需声音的简短描述，以及要讲述的文字，并要求模型生成语音。该模型还允许用户将音频语音输入与文本风格提示结合起来，以合成任何环境（例如，“在大教堂里”）或任何情感（例如，“悲伤和缓慢地说话”）中的该声音的语音。据我们所知，Audiobox是第一个允许自由风格声音重塑的双输入（语音提示和文本描述提示）模型。

声音重塑：Audiobox可以重塑声音，使其听起来好像在不同的环境中——例如，在这个例子中的一个大教堂。 Audiobox在语音和音效生成的可控性上展示了最先进的水平。我们自己的测试显示，它在质量和相关性（忠实于文本描述）方面显著优于之前的最佳模型（AudioLDM2、VoiceLDM和TANGO）。在各种语音风格上，Audiobox在风格相似性方面超过了Voicebox 30％以上。

长期来看,从构建只能生成一种类型音频(如语音或声音)的专用生成模型,转向构建可以生成任何音频的通用生成模型,将至关重要。有了这种模型,我们可以执行任何需要跨模态理解的生成音频任务。这将使开发者更容易地构建向更动态和广泛的用例。

Audiobox 是走向民主化音频生成的重要一步。我们设想一个每个人都可以更轻松、更有效地创建定制音频以满足其用例的未来。我们希望在文本和图像生成领域点燃创造力的进步,也能在音频上发生,无论是专业人士还是业余爱好者。

内容创作、讲述、声音编辑、游戏开发,甚至 AI 聊天机器人,都可以从音频生成模型的能力中受益

Subscribe 订阅