英伟达承诺通过其新的 AI 音频生成器创造前所未闻的声音
英伟达联合创始人兼首席执行官黄仁勋 (Jensen Huang) 手持该公司用于数据中心的 AI 加速器芯片。 © 照片:Akio Kon/Bloomberg via Getty Images
英伟达想让你知道 ,你最奇特的音频想法现在都可能实现。该公司最新的 AI 项目,连同其 AI NPC 和 游戏内聊天机器人,是一款名为 Fugatto 的文本转音频 AI。与其他模型一样,英伟达人工智能音频可以根据简单的描述创建音轨,但这个程序还可以创建“从未听过的声音”,例如“萨克斯管嚎叫”,无论这意味着什么。
英伟达在一篇博客文章中声称,其“声音的瑞士军刀”AI 模型可以修改现有的声音或凭空创造整个音景。Fugatto 实际上是冗长的“Foundational Generative Audio Transformer Opus 1”的首字母缩写。它能够处理语音、音乐和背景噪音,并将它们全部制作成单个音轨。它还可以修改现有的声源。
称任何声音为“前所未闻”都是愚蠢的,尤其是当它来自人工智能时。无论输出结果如何,人工智能音频都只是一种人工智能算法,它使用训练数据中的现有源来提供近似于提示的结果。英伟达表示,其模型是独一无二的,因为它可以结合训练期间分开的指令并“创造前所未见的音景”。这意味着它可以叠加两种不同的音频效果来创造新的东西。在一段视频中,英伟达展示了它如何生成火车的声音,然后变成管弦乐。它还可以创造出逐渐消失在远处的暴雨声。
这些是我们以前从未见过的功能。除了演示“狗跟着节拍吠叫的电子音乐”的提示外,英伟达表示其工具还提供了对所创建音景的“细粒度控制”。英伟达声称视频的解说员是英伟达首席执行官黄仁勋的 AI 版本,但如果 Fugatto 发出明显是假的声音,那么在有人将其用于下一个深度伪造项目之前,AI 模型还需要做更多的工作。
许多 AI 音频工具已经能够将文本提示转换为音轨。Adobe 已经向不择手段的音乐家推销了自己的 Project MusicGenAI Control 工具。Meta 等大型科技公司已经向电影行业推广了他们的音频模型。上个月, Meta 推出了 Movie Gen,它可以为 AI 生成的电影生成音景。
英伟达援引人工智能研究员 Rohana Badlani 的话称,该模型“让我感觉自己有点像艺术家”,不过,当然,该人工智能是从数千 GB 的现有音乐和音频数据中提取的。Nvidia 没有分享其数据集的具体细节,只说它包含“用于训练的数百万个音频样本”。Fugatto 的完整版本是一个 25 亿参数的模型,在 Nvidia 自己著名的 H100 AI GPU 库上进行训练。
这对拟音师来说是个坏消息,他们已经将这种音频造假变成了一种著名的艺术形式。该公司表示,Fugatto 可能是一个有用的工具,适合广告公司、视频游戏开发商或音乐家,他们希望在不做太多额外工作的情况下对自己的作品进行更改。然而,硬币的另一面是所有那些会用它来制作“新资产”的人,也就是说,可能会在不断增长的资产堆中添加更多的人工智能垃圾。
Fugatto 的用途可能不止是为电影制作公司提供借口来取代人类音频工程师。Nvidia 声称它可以在现有音乐中移除或添加乐器。它还可以隔离和修改现有来源中的特定噪音。也许你可以用无聊的合成器乐谱生成空洞的鼓点节奏,但大多数人买电影票时不会花钱买一整套仅由人工智能生成的配乐。