[PRISNA-WP-翻译]

您需要了解的有关 OpenAI 功能强大的新型 o1 型号的信息

OpenAI o1 Hub | OpenAI

经过几个月的猜测,OpenAI 的 "草莓 "LLM 终于面世了--而且它的名字不是 GPT-5。9 月 13 日凌晨,OpenAI 发布了 OpenAI o1 系列,这是一款拥有无与伦比的推理能力的大型语言模型。该模型代表了复杂推理能力的重大飞跃,在某些领域甚至超越了人类博士水平。

OpenAI o1 Hub | OpenAI

新的命名规则

名称本身的意义远不及它所代表的转变。OpenAI o1 是第一个脱离 "GPT "系列的模型,标志着一种新的 "推理范式 "的开始,有别于其前辈的 "预训练范式"。OpenAI 解释说:"推理是 AI 功能的一个新领域。我们决定将计数器重置为 1,并将此系列命名为 OpenAI o1"。

 

OpenAI 同时发布了两个模型(o1-preview 和 o1-mini),以及十几个演示视频和 43 页的综合研究论文。这些模型的一个核心特点是在做出反应之前延长思考时间,模仿人类解决问题的方式。推理时间与复杂任务的表现直接相关。

o1 的能力

o1 系列是 OpenAI 的第一个强化学习训练模型。它在回答问题前会产生一个较长的思维链,从而大大增强了其能力。更长的思维链意味着更长的考虑时间和更高的推理性能。

数学(AIME 2024)、代码(CodeForces)和博士级科学问题(GPQA Diamond)的竞赛回执

首席执行官山姆-奥特曼(Sam Altman)强调了 o1 的实力:在 2024 年国际信息学奥林匹克竞赛(IOI)中,经过微调的 o1 在每个问题尝试 50 次后,在人类选手中取得了前 49% 的好成绩。

o1 还在 Codeforces 竞技编程中取得了 89% 的最高成绩,并在美国数学邀请考试(AIME)中名列美国学生前 500 名。与 GPT-4 相比,o1 在包括 STEM 领域、法律和经济学在内的多个学科上都取得了显著进步。

o1 能做什么

o1 保留了以往 GPT 模型的多功能性(问题解答、摘要、内容生成),但其先进的推理能力使其特别适用于:

  • 卓越的推理能力: 特别是在科学、技术、工程和数学领域。
  • 创造性地解决问题 非常适合头脑风暴和构思。
  • 科学研究: 擅长标注复杂的数据集(如细胞测序)和处理复杂的数学公式(如量子光学)。
  • 编码能力: 有效的代码生成、调试和工作流程辅助,在 Human Eval 和 Codeforces 等基准测试中表现出色。
  • 高等数学 在数学基准测试中明显优于以前的模型,在 IMO 资格考试中取得了 83% 的准确率(相比之下,GPT-4 为 13%)和 AIME 的优异成绩。能够生成复杂的物理公式。
  • 增强准确性: 加入自我事实检查功能,提高准确性。

的力量 思想链

OpenAI 的 o1 模型采用一连串思维过程来解决问题,与人类对复杂问题的思考如出一辙。通过强化学习,o1 不断改进其解决问题的策略,学会识别和纠正错误,将复杂的步骤分解为更简单的步骤,甚至在必要时转换方法。这种迭代过程大大增强了它的推理能力。下面将举例说明 o1-preview 在解决具有挑战性的问题时的思维链。这种方法模仿了人类的认知能力,可以在单个问题中逐步完善甚至自我迭代,从而大大提高了推理能力。

在训练过程中增加强化学习,在测试过程中延长思考时间,进一步提高了 o1 的性能,建立了新的缩放规律。不过,这种缩放限制与传统的预训练方法有很大不同,OpenAI 正在积极研究这些差异。

为了直观地了解 o1 的思路,请看一道阅读理解题。GPT-4 提供了直接答案,而 o1-preview 的 "显示思维链 "选项则显示了它的逐步分析。它系统地检查每个选项,反复质疑其推理("这是一个好的解释吗?"、"作者是这么说的吗?"、"上下文支持这个说法吗?"),通过反复推敲最终得出正确答案。

自动生成黑色背景和白色文本 说明

o1 系列应用广泛,可协助医疗保健研究人员注释细胞测序数据,协助物理学家生成复杂的量子光学公式,协助开发人员构建和执行多步骤工作流程。虽然目前的推理时间从几秒到几十秒不等,但 OpenAI 的未来发展重点是增加而不是减少这种审议时间,目标是未来的版本能够推理数小时、数天甚至数周。这将增加成本,但在医学等领域取得突破性进展的潜力证明了投资的合理性。AI 的功能远不止简单的聊天机器人。

注意:避免在 ChatGPT 中查询 o1 的内部推理

o1 推出后,许多用户报告说,由于试图访问其内部推理过程,他们收到了警告,甚至被暂时封禁。这引发了相当大的反弹。

用户只需在提示中加入 "推理追踪 "或 "展示您的思维链 "等关键词,就会触发警告。即使是试图通过其他措辞间接引出模型推理的用户也会被检测到并受到惩罚。这些用户的目的是提取 o1 完整的内部思维过程--其原始推理 tokens--这些推理目前汇总在 ChatGPT 界面中(可通过扩展按钮访问)。

OpenAI 受到限制的可能原因是,o1 的推理过程作为未来模型的训练数据具有很高的价值。保护这一宝贵的知识产权不受竞争者侵害是一个关键动机。

使用 o1 模型时的主要考虑因素

成本高: 使用 o1 模式的成本很高;100 万个输出 tokens 的成本为 $60。

隐性成本: 该费用包括未见推理 token 的费用,增加了总支出。

具有成本效益的方法: 对于大多数任务来说,GPT-4 是更经济的起点。只有在 GPT-4 能力不足时,才使用 o1。

未来发展方向

OpenAI 推出 o1 系列标志着 AI 发展的关键时刻。该模型具有超强的推理能力,在某些领域甚至超越了人类专家,是对以往 GPT 模型的重大改进。

然而,o1 模型并非没有局限性。它的成本高昂,再加上与看不见的推理 token 相关的隐性成本,因此有必要采取战略性的方法来使用它。此外,OpenAI 对访问模型完整推理过程的限制也凸显了平衡创新与知识产权保护之间的持续挑战。虽然 o1 的未来潜力巨大,预计推理时间可延长至数小时甚至数周,但其目前的开发阶段需要开发者社区的仔细考虑和进一步探索,以充分释放其潜力。实现真正先进的 AI 推理的征程已经开始,而 o1 是这条道路上迈出的重要一步。

有兴趣探索 OpenAI o1 系列的潜力。了解有关其功能的更多信息,并考虑这一突破性技术如何彻底改变您的研发工作。如需了解更多信息,请联系 Cloudsway。

 

联系 AI 云计算专家!

联系我们

您的 AI 之旅从这里开始。
请填写表格,我们会给您答复。