生成音频的瑞士军刀诞生!一款能用文本控制声音输出的AI来了
一支生成式AI研究团队打造了一款“音频瑞士军刀”,让用户仅凭文字描述就能掌控声音输出。
不同于只会作曲或变声的AI模型,这款新工具堪称音频领域的“全能选手”。
这款产品被命名为 Fugatto(全称为 Foundational Generative Audio Transformer Opus 1),能够通过文本提示或音频文件生成、转换任何形式的音乐、声音和人声。例如,它能根据文字提示生成音乐片段,从现有歌曲中删除或添加乐器,改变声音的口音或情感,甚至创造出从未听过的全新声音!
“这个工具简直是黑科技”
获得多白金销量的制作人兼词曲作者 Ido Zmishlany 表示:“声音是我的灵感来源,它驱动我创作音乐。现在,在录音棚中实时生成全新声音的能力简直让人兴奋。”
音频领域的一次革命
Fugatto 背后的团队希望让 AI 模型像人类一样“理解和生成声音”。据 NVIDIA 的音频应用研究经理兼 Fugatto 项目负责人 Rafael Valle 透露,这款模型支持多种音频生成与转换任务,是首个展现“涌现能力”的基础生成式 AI 模型。它能结合多种自由形式的指令,完成高度复杂的任务。
Valle 进一步解释:“Fugatto 是我们迈向音频合成和转换未来的重要一步,最终目标是实现无监督的多任务学习。”
用途广泛:从音乐创作到游戏开发
Fugatto 的潜力无处不在:
- 音乐制作:音乐人可以快速尝试不同的风格、声音和乐器,或为现有曲目添加特效,提高音质。
- 广告配音:广告公司能为不同地区或场景快速调整语音口音和情感。
- 语言学习:在线课程甚至可以用用户家人或朋友的声音进行定制化教学。
- 游戏开发:游戏开发者可用文本和音频生成新声音,或调整现有音效以匹配游戏动态。
创意无限:从“喵喵的萨克斯”到“吠叫的喇叭”
Fugatto 还能生成闻所未闻的声音,例如让喇叭学狗叫或萨克斯风模仿猫叫。无论用户如何描述,这款模型都能把创意变为现实。
此外,只需少量歌唱数据,Fugatto 甚至可以生成高质量的歌声。其结合多种指令的能力也令人惊艳,例如用文本指令生成“带法国口音、略带悲伤的语音”。
艺术家般的控制力
用户还能通过 Fugatto 的独特功能对声音进行精细调整。例如,它能生成雷雨从远到近的渐变效果,再慢慢演变为鸟鸣的黎明场景。
技术内幕:模型如何诞生?
Fugatto 的训练基于 NVIDIA 的 DGX 系统,采用 2.5 亿参数规模。团队来自全球多个国家,通过多文化、多语言的合作大幅提升了模型的表现力。
在一年的研发中,团队设计了一套全新的数据生成和指令策略,不仅拓展了模型的能力,还让它能在没有额外数据的情况下完成新任务。
当 Fugatto 首次根据提示生成音乐时,团队成员都激动不已;而当它用狗吠声与电子音乐完美合拍时,笑声回荡整个实验室。