标签 聊天机器人 下的文章
英伟达承诺通过其新的 AI 音频生成器创造前所未闻的声音
英伟达联合创始人兼首席执行官黄仁勋 (Jensen Huang) 手持该公司用于数据中心的 AI 加速器芯片。 © 照片:Akio Kon/Bloomberg via Getty Images
英伟达想让你知道 ,你最奇特的音频想法现在都可能实现。该公司最新的 AI 项目,连同其 AI NPC 和 游戏内聊天机器人,是一款名为 Fugatto 的文本转音频 AI。与其他模型一样,英伟达人工智能音频可以根据简单的描述创建音轨,但这个程序还可以创建“从未听过的声音”,例如“萨克斯管嚎叫”,无论这意味着什么。
英伟达在一篇博客文章中声称,其“声音的瑞士军刀”AI 模型可以修改现有的声音或凭空创造整个音景。Fugatto 实际上是冗长的“Foundational Generative Audio Transformer Opus 1”的首字母缩写。它能够处理语音、音乐和背景噪音,并将它们全部制作成单个音轨。它还可以修改现有的声源。
称任何声音为“前所未闻”都是愚蠢的,尤其是当它来自人工智能时。无论输出结果如何,人工智能音频都只是一种人工智能算法,它使用训练数据中的现有源来提供近似于提示的结果。英伟达表示,其模型是独一无二的,因为它可以结合训练期间分开的指令并“创造前所未见的音景”。这意味着它可以叠加两种不同的音频效果来创造新的东西。在一段视频中,英伟达展示了它如何生成火车的声音,然后变成管弦乐。它还可以创造出逐渐消失在远处的暴雨声。
这些是我们以前从未见过的功能。除了演示“狗跟着节拍吠叫的电子音乐”的提示外,英伟达表示其工具还提供了对所创建音景的“细粒度控制”。英伟达声称视频的解说员是英伟达首席执行官黄仁勋的 AI 版本,但如果 Fugatto 发出明显是假的声音,那么在有人将其用于下一个深度伪造项目之前,AI 模型还需要做更多的工作。
许多 AI 音频工具已经能够将文本提示转换为音轨。Adobe 已经向不择手段的音乐家推销了自己的 Project MusicGenAI Control 工具。Meta 等大型科技公司已经向电影行业推广了他们的音频模型。上个月, Meta 推出了 Movie Gen,它可以为 AI 生成的电影生成音景。
英伟达援引人工智能研究员 Rohana Badlani 的话称,该模型“让我感觉自己有点像艺术家”,不过,当然,该人工智能是从数千 GB 的现有音乐和音频数据中提取的。Nvidia 没有分享其数据集的具体细节,只说它包含“用于训练的数百万个音频样本”。Fugatto 的完整版本是一个 25 亿参数的模型,在 Nvidia 自己著名的 H100 AI GPU 库上进行训练。
这对拟音师来说是个坏消息,他们已经将这种音频造假变成了一种著名的艺术形式。该公司表示,Fugatto 可能是一个有用的工具,适合广告公司、视频游戏开发商或音乐家,他们希望在不做太多额外工作的情况下对自己的作品进行更改。然而,硬币的另一面是所有那些会用它来制作“新资产”的人,也就是说,可能会在不断增长的资产堆中添加更多的人工智能垃圾。
Fugatto 的用途可能不止是为电影制作公司提供借口来取代人类音频工程师。Nvidia 声称它可以在现有音乐中移除或添加乐器。它还可以隔离和修改现有来源中的特定噪音。也许你可以用无聊的合成器乐谱生成空洞的鼓点节奏,但大多数人买电影票时不会花钱买一整套仅由人工智能生成的配乐。
苹果计划于 2026 年推出“LLM Siri”
据彭博社报道,苹果正在开发一款更智能的Siri版本,员工们称之为“LLM Siri” 。苹果正在设计功能更强大的 Siri,以便更好地与 ChatGPT 等聊天机器人竞争,并计划利用“先进的大型语言模型”。
聊天机器人版的 Siri 将能够进行持续对话,就像 ChatGPT 一样。苹果希望客户能够更好地与个人助理交谈,让 Siri 的响应更像人类。大型语言模型的使用还将使 Siri 能够执行更复杂的任务,而苹果在 iOS 18.2 中必须依靠 OpenAI 的 ChatGPT 来实现这些任务。
苹果正在努力利用iOS 18中的Apple Intelligence改进 Siri 在应用程序内部和应用程序之间的功能,这将为 Siri 的更新版本奠定一些基础。对于该功能,苹果将使用第一代 Apple LLM 来评估请求,以确定是否应使用现有的 Siri 基础设施,或者是否应查询能够处理更复杂请求的第二个 LLM。
苹果正在 iPhone、iPad 和 Mac 上的单独应用程序中测试新版 Siri,但它最终将取代当前版本的 Siri。Siri 更新可能会在 2025 年宣布,很可能是 6 月全球开发者大会的一部分,届时苹果将发布 iOS 19。
虽然 Siri 会提前预览,但苹果并不打算在更新发布几个月后才发布。截至目前,苹果的目标是 2026 年春季发布,但苹果的计划可能会改变。
埃隆·马斯克的 X 似乎将让 Grok AI 对部分用户免费
X 正在向部分用户免费提供 Grok 聊天机器人。NurPhoto / Getty
看起来,X(前身为 Twitter)正在向部分用户免费提供其 AI 聊天机器人 Grok。到目前为止,该产品仅限高级用户使用,但TechCrunch 报道称,一些用户开始分享他们在周末获得了免费访问权限。
TechCrunch可以通过在新西兰注册的账户访问 X 来访问 Grok 的免费版本。网站上的文字写道:“您所在地区现已推出 Grok 免费版本。聊天、生成图像和分析照片。有限制。”新西兰是社交网络在更广泛推出新产品之前测试新产品的常用地点。
X 似乎正在向免费用户开放 Grok 访问权限。来源:TechCrunch
据X 安全研究员称,账户必须至少有七天历史并且有关联的电话号码才有资格使用 Grok 的免费套餐。这是有道理的,因为聊天机器人是资源密集型的,而 X 已经面临机器人用 AI 垃圾充斥平台的严重问题。他们需要设置一些护栏,以防止成本螺旋式上升。为此,Grok 的免费用户在 Grok 2 模型上每两小时只能问 10 个问题,或者在使用 Grok 2 迷你模型时每两小时只能问 20 个问题。免费用户每天最多只能分析三张图片。
目前尚不清楚 Grok 是否会向美国用户提供免费版本。
Grok 的技术开发方是埃隆·马斯克旗下的另一家公司 xAI。马斯克称,其模型应该是所有主要模型中言论自由度最高的,该模型使用 X 的内容进行训练,这一独特优势使该模型能够访问近乎实时的信息。如果你相信马斯克的理念,即公民新闻是世界真相的“真正”来源,那么这至少是一个优势。
当然,尽管 X 上的信息传播速度很快,但很多传播的信息在被主流媒体或 X 自己的社区笔记纠正之前都是虚假或误导性的,而且这些更正通常没有原始虚假信息传播得那么广。Grok 和其他聊天机器人一样,由于其聊天机器人的性质,也经常出错。
xAI 几乎是马斯克从 440 亿美元收购 Twitter 中获得回报的唯一希望。尽管富达对 X 的估值仅为可怜的 90 亿美元,自收购以来下跌了 79%,但 xAI 已经筹集了 60 亿美元,并且正在以450 亿美元的估值筹集数十亿美元的新资本——是的,这是真的。投资马斯克收购 Twitter 的投资者获得了参与 xAI 融资的机会,这实际上是另一个收回资金的机会。
马斯克一直在通过蛮力进入人工智能竞赛,部分原因是出于对被 OpenAI 踢出的报复。xAI 是他的典型企业,它已经在孟菲斯迅速建造了世界上最大的人工智能超级计算机,引起了轰动,这让当地人大为震惊。但是,嘿,Grok 可以让你看到马里奥飞进双子塔的画面。其他聊天机器人不会让你这样做。