Meta推出了名为Audiobox的全新基础音频生成研究模型。这款Audiobox能够通过语音输入和自然语言文本提示的结合,生成各种声音和音效,轻松为多种用途创造定制音频。作为我们对负责任研究行为承诺的一部分,我们即将邀请研究人员和学术机构申请专项资金,用于开展与Audiobox相关的安全性和责任研究。
首个跨任务通用的语音生成AI模型,具有最先进的性能 借助基础多模态模型,让世界通过语音翻译更加紧密联系 开放源码AudioCraft:简单且对所有人开放的音频生成AI 今年早些时候,Meta推出了Voicebox,一种最先进的AI模型,能够执行如编辑、采样、风格化等语音生成任务。它在生成AI方面取得了突破,可以通用于未经特定训练的语音生成任务,并以最先进的性能执行这些任务。
现在,作为Voicebox的继任者,Audiobox通过统一语音、音效(如狗叫、汽车喇叭、雷声等短暂、离散的声音)和声景的生成和编辑能力,进一步推进了音频生成AI。Audiobox还支持多种输入方式,以最大限度地控制每个用例。
最值得注意的是,Audiobox允许人们使用自然语言提示来描述他们想要生成的声音或语音类型。例如,如果有人想要生成声景,他们可以给模型一个文本提示,比如“奔流的河流和鸟儿的啼鸣”。
描述并生成声音:用户可以提供所需声音的简短描述,并要求模型生成它。 类似地,要生成一种声音,用户可能会输入,“一个年轻女性以高音调和快速节奏说话”。
描述并生成语音:用户可以提供所需声音的简短描述,以及要讲述的文字,并要求模型生成语音。 该模型还允许用户将音频语音输入与文本风格提示结合起来,以合成任何环境(例如,“在大教堂里”)或任何情感(例如,“悲伤和缓慢地说话”)中的该声音的语音。据我们所知,Audiobox是第一个允许自由风格声音重塑的双输入(语音提示和文本描述提示)模型。
声音重塑:Audiobox可以重塑声音,使其听起来好像在不同的环境中——例如,在这个例子中的一个大教堂。 Audiobox在语音和音效生成的可控性上展示了最先进的水平。我们自己的测试显示,它在质量和相关性(忠实于文本描述)方面显著优于之前的最佳模型(AudioLDM2、VoiceLDM和TANGO)。在各种语音风格上,Audiobox在风格相似性方面超过了Voicebox 30%以上。
长期来看,从构建只能生成一种类型音频(如语音或声音)的专用生成模型,转向构建可以生成任何音频的通用生成模型,将至关重要。有了这种模型,我们可以执行任何需要跨模态理解的生成音频任务。这将使开发者更容易地构建向更动态和广泛的用例。
Audiobox 是走向民主化音频生成的重要一步。我们设想一个每个人都可以更轻松、更有效地创建定制音频以满足其用例的未来。我们希望在文本和图像生成领域点燃创造力的进步,也能在音频上发生,无论是专业人士还是业余爱好者。
内容创作、讲述、声音编辑、游戏开发,甚至 AI 聊天机器人,都可以从音频生成模型的能力中受益