OpenAI 发布 o1 模型，提升 AI 推理能力

Gábor Bíró • 2024年9月13日

3 阅读时间

OpenAI 最新的人工智能模型 o1（内部代号“草莓”）现已发布。o1 模型专为增强人工智能的推理能力而设计。多方消息来源报道称，这一新型号系列旨在通过在给出答案之前花费更多时间“思考”来解决科学、编程和数学领域的复杂问题。

来源: 作者原创

高级推理与性能

o1 模型在解决复杂问题方面表现出卓越的能力，尤其是在 STEM（科学、技术、工程和数学）领域。在测试中，o1 在竞争性编程竞赛 (Codeforces) 中位列前 89%，在美国数学奥林匹克竞赛预选赛 (AIME) 中跻身前 500 名学生之列。在物理、生物和化学等科学领域，它在基准数据集 (GPQA) 上的表现超越了博士水平的人类准确率。其高级推理能力使 o1 能够处理复杂的问题、生成精密的算法，并在比较分析任务（例如审查合同或法律文件）中表现出色。

性能基准

o1 模型在各项基准测试中均表现出色，证明了其先进的推理能力。下表总结了 o1 模型的关键结果：

基准测试	性能
Codeforces (竞争性编程)	前 89%
AIME (数学奥林匹克竞赛预选赛)	美国前 500 名学生
GPQA (物理、生物、化学)	超越博士水平的准确率
国际信息学奥林匹克竞赛 (IOI)	全球前 49%
Codeforces Elo 评分	1807 (前 93%)
MMLU 子类别	在 57 个子类别中的 54 个中优于之前的模型

o1 模型的性能在 STEM 领域尤为突出，证明了其解决复杂问题和逻辑处理困难任务的能力。其成果将 AI 推理能力提升到了新的水平，代表了科学、数学和编程应用领域的重大进步。

o1 模型变体

o1 模型已发布两个变体：o1-preview 和 o1-mini。o1-mini 尺寸更小、速度更快、成本效益更高，专为编码任务而设计。据报告，o1-mini 比 o1-preview 便宜 80%，同时在编码基准测试中提供了具有竞争力的强大性能。这两款模型都可通过 ChatGPT 和 OpenAI API 访问。

局限性与挑战

尽管 o1 模型具有先进的功能，但也面临着一些挑战。它的使用成本明显更高，通过 API 访问时，输入成本是 GPT-4o 的 3 倍，输出成本是 GPT-4o 的 4 倍。o1 模型在处理查询时有时可能会更慢，特别是对于可能需要超过 10 秒计算时间的复杂问题。另一个限制是 o1 目前不支持网络浏览和文件分析等功能，而这些功能在其他 AI 模型中是可用的。

可用性与未来计划

o1 模型目前已向 ChatGPT Plus 和 Team 用户开放，每周消息上限有限制：o1-preview 为 30 条消息，o1-mini 为 50 条消息。o1-mini 模型预计很快将向所有免费 ChatGPT 用户开放，但尚未公布具体发布日期。OpenAI 计划进一步增强模型的功能，解决其局限性，并集成浏览和文件上传等附加功能，以提高其在各种应用中的实用性。

Which AI Model Performs Best on a 5th-Grade Math Problem?

Gábor Bíró • 2025年1月14日

The development of AI models has progressed at an astonishing pace in recent years, but how do these systems perform when tasked with solving a 5th-grade math competition problem? In this test, I not only examine the models' problem-solving abilities but also provide insight into how effectively they can handle optimization problems.