OpenAI 跳过 o2,推出全新 o3“推理”模型
OpenAI 推出了其最新的 AI 推理模型 o3。Mike Coppola/Getty Images
OpenAI 的“Shipmas 12 天”活动的最后一天到来了,公司发布了 o3,这是一种新的思维链“推理”模型,该公司声称这是迄今为止最先进的模型。该模型尚未供一般使用,但安全研究人员可以从今天开始注册预览。
OpenAI 和其他公司希望推理模型能够在很大程度上解决聊天机器人经常给出错误答案这一棘手问题。聊天机器人从根本上来说无法像人类一样“思考”,因此需要使用不同的技术来尝试创建人类思维过程的最佳模拟。
当被问到问题时,推理模型会暂停并考虑相关提示,这些提示可能有助于得出准确的答案。例如,如果你问 o3 模型“哈瓦那辣椒可以在太平洋西北部种植吗”,该模型可能会列出一系列问题,它将研究这些问题以得出结论,例如“哈瓦那辣椒通常在哪里生长”、“种植哈瓦那辣椒的理想条件是什么”和“太平洋西北部有什么样的气候”。任何使用过聊天机器人的人都知道,有时你必须提示聊天机器人进行额外的后续操作,直到它最终得到正确的结果。推理模型应该为你完成这些额外的工作。
o3 是 o1 的继承者,o1 是 OpenAI 的第一个思维链推理模型。Reps 表示,他们决定跳过“o2”命名惯例“以表示对这家英国电信公司的尊重”,但这肯定不会损害产品听起来更先进。该公司表示,新模型具有调整推理时间的能力。用户可以选择低、中或高推理时间;计算量越大,o3 的性能就越好。OpenAI 表示,它将花时间与研究人员一起“红队”测试新模型,以防止其产生潜在的有害反应(因为再说一遍,它不是人类,不知道什么是对,什么是错)。
推理是当今生成式人工智能领域的流行词,业内人士认为,推理是提高大型语言模型性能的下一个必要解锁。更多的计算最终不会带来同等的性能提升,因此需要新技术。谷歌 DeepMind 最近推出了自己的推理模型Gemini Deep Research,该模型可以在 5-10 分钟内生成一份报告,该报告会分析网络上的许多来源以得出其结论。
OpenAI 对 o3 充满信心,并提供了令人印象深刻的基准——它表示,在衡量编码能力的 Codeforcing 测试中,o3 获得了 2727 分。作为背景,2400 分将使工程师进入程序员的第 99 个百分位。它在 2024 年美国数学邀请赛中获得了 96.7% 的分数,只缺了一个问题。我们将不得不看看该模型在现实世界的测试中表现如何;OpenAI 最近发布的 Sora仍需要改进。但乐观主义者相信准确性问题正在得到解决。尽管如此,在需要准确性的重要工作中,还是不要过于依赖人工智能模型。
OpenAI 和 Perplexity 等 AI 模型公司正在竞相成为下一个 Google,收集全球知识并帮助用户理解这一切。他们现在甚至推出了搜索产品,旨在更直接地复制 Google,提供实时网络结果。
然而,所有这些参与者似乎每天都在超越对方。这种感觉有点让人想起 90 年代末,当时有无数的搜索引擎可供选择——谷歌、雅虎、AltaVista、Ask Jeeves,仅举几例,它们都收集互联网数据,并以不同的用户体验呈现。大多数搜索引擎都消失了,因为出现了一个比其他搜索引擎好得多的搜索引擎——谷歌。
OpenAI 目前显然处于领先地位,拥有数亿月活跃用户,并与苹果建立了合作伙伴关系,但谷歌最近因其 Gemini 模型的进步而获得了很多赞誉。据 The Verge 报道,该公司很快将把 Gemini更深入地整合到其搜索界面中。