Nvidia 发布 Fugatto 模型 - AI TrendTrackers

生成音频的瑞士军刀诞生！一款能用文本控制声音输出的AI来了

一支生成式AI研究团队打造了一款“音频瑞士军刀”，让用户仅凭文字描述就能掌控声音输出。

不同于只会作曲或变声的AI模型，这款新工具堪称音频领域的“全能选手”。

这款产品被命名为 Fugatto（全称为 Foundational Generative Audio Transformer Opus 1），能够通过文本提示或音频文件生成、转换任何形式的音乐、声音和人声。例如，它能根据文字提示生成音乐片段，从现有歌曲中删除或添加乐器，改变声音的口音或情感，甚至创造出从未听过的全新声音！

“这个工具简直是黑科技”

获得多白金销量的制作人兼词曲作者 Ido Zmishlany 表示：“声音是我的灵感来源，它驱动我创作音乐。现在，在录音棚中实时生成全新声音的能力简直让人兴奋。”

音频领域的一次革命

Fugatto 背后的团队希望让 AI 模型像人类一样“理解和生成声音”。据 NVIDIA 的音频应用研究经理兼 Fugatto 项目负责人 Rafael Valle 透露，这款模型支持多种音频生成与转换任务，是首个展现“涌现能力”的基础生成式 AI 模型。它能结合多种自由形式的指令，完成高度复杂的任务。

Valle 进一步解释：“Fugatto 是我们迈向音频合成和转换未来的重要一步，最终目标是实现无监督的多任务学习。”

用途广泛：从音乐创作到游戏开发

Fugatto 的潜力无处不在：

音乐制作：音乐人可以快速尝试不同的风格、声音和乐器，或为现有曲目添加特效，提高音质。
广告配音：广告公司能为不同地区或场景快速调整语音口音和情感。
语言学习：在线课程甚至可以用用户家人或朋友的声音进行定制化教学。
游戏开发：游戏开发者可用文本和音频生成新声音，或调整现有音效以匹配游戏动态。

创意无限：从“喵喵的萨克斯”到“吠叫的喇叭”

Fugatto 还能生成闻所未闻的声音，例如让喇叭学狗叫或萨克斯风模仿猫叫。无论用户如何描述，这款模型都能把创意变为现实。

此外，只需少量歌唱数据，Fugatto 甚至可以生成高质量的歌声。其结合多种指令的能力也令人惊艳，例如用文本指令生成“带法国口音、略带悲伤的语音”。

艺术家般的控制力

用户还能通过 Fugatto 的独特功能对声音进行精细调整。例如，它能生成雷雨从远到近的渐变效果，再慢慢演变为鸟鸣的黎明场景。

技术内幕：模型如何诞生？

Fugatto 的训练基于 NVIDIA 的 DGX 系统，采用 2.5 亿参数规模。团队来自全球多个国家，通过多文化、多语言的合作大幅提升了模型的表现力。

在一年的研发中，团队设计了一套全新的数据生成和指令策略，不仅拓展了模型的能力，还让它能在没有额外数据的情况下完成新任务。

当 Fugatto 首次根据提示生成音乐时，团队成员都激动不已；而当它用狗吠声与电子音乐完美合拍时，笑声回荡整个实验室。

Subscribe 订阅