OpenAI 发布 o1 模型,提升 AI 推理能力

Gábor Bíró 2024年9月13日
3 阅读时间

OpenAI 最新的人工智能模型 o1(内部代号“草莓”)现已发布。o1 模型专为增强人工智能的推理能力而设计。多方消息来源报道称,这一新型号系列旨在通过在给出答案之前花费更多时间“思考”来解决科学、编程和数学领域的复杂问题。

OpenAI 发布 o1 模型,提升 AI 推理能力
来源: 作者原创

高级推理与性能

o1 模型在解决复杂问题方面表现出卓越的能力,尤其是在 STEM(科学、技术、工程和数学)领域。在测试中,o1 在竞争性编程竞赛 (Codeforces) 中位列前 89%,在美国数学奥林匹克竞赛预选赛 (AIME) 中跻身前 500 名学生之列。在物理、生物和化学等科学领域,它在基准数据集 (GPQA) 上的表现超越了博士水平的人类准确率。其高级推理能力使 o1 能够处理复杂的问题、生成精密的算法,并在比较分析任务(例如审查合同或法律文件)中表现出色。

性能基准

o1 模型在各项基准测试中均表现出色,证明了其先进的推理能力。下表总结了 o1 模型的关键结果:

基准测试 性能
Codeforces (竞争性编程) 前 89%
AIME (数学奥林匹克竞赛预选赛) 美国前 500 名学生
GPQA (物理、生物、化学) 超越博士水平的准确率
国际信息学奥林匹克竞赛 (IOI) 全球前 49%
Codeforces Elo 评分 1807 (前 93%)
MMLU 子类别 在 57 个子类别中的 54 个中优于之前的模型

o1 模型的性能在 STEM 领域尤为突出,证明了其解决复杂问题和逻辑处理困难任务的能力。其成果将 AI 推理能力提升到了新的水平,代表了科学、数学和编程应用领域的重大进步。

o1 模型变体

o1 模型已发布两个变体:o1-preview 和 o1-mini。o1-mini 尺寸更小、速度更快、成本效益更高,专为编码任务而设计。据报告,o1-mini 比 o1-preview 便宜 80%,同时在编码基准测试中提供了具有竞争力的强大性能。这两款模型都可通过 ChatGPT 和 OpenAI API 访问。

局限性与挑战

尽管 o1 模型具有先进的功能,但也面临着一些挑战。它的使用成本明显更高,通过 API 访问时,输入成本是 GPT-4o 的 3 倍,输出成本是 GPT-4o 的 4 倍。o1 模型在处理查询时有时可能会更慢,特别是对于可能需要超过 10 秒计算时间的复杂问题。另一个限制是 o1 目前不支持网络浏览和文件分析等功能,而这些功能在其他 AI 模型中是可用的。

可用性与未来计划

o1 模型目前已向 ChatGPT Plus 和 Team 用户开放,每周消息上限有限制:o1-preview 为 30 条消息,o1-mini 为 50 条消息。o1-mini 模型预计很快将向所有免费 ChatGPT 用户开放,但尚未公布具体发布日期。OpenAI 计划进一步增强模型的功能,解决其局限性,并集成浏览和文件上传等附加功能,以提高其在各种应用中的实用性。

Gábor Bíró 2024年9月13日