微信扫码
与创始人交个朋友
我要投稿
OpenAI 推出全新推理模型 o1
人工智能领域的先锋 OpenAI 近日发布了一款名为 o1 的新模型,这是一系列计划中的“推理”模型中的首款,旨在以超越人类的速度回答更复杂的问题。同时发布的还有 o1-mini,一个更小型、更经济的版本。没错,如果你对 AI 界的传闻有所耳闻,这正是备受瞩目的 Strawberry 模型。
迈向AGI的一大步
自 2023年3月 OpenAI 发布其强大的专有大型语言模型(LLM)GPT-4 以来,已经过去了18个月,用户和开发者一直在猜测这家在硅谷乃至全球掀起生成型 AI 热潮的公司何时会发布下一个版本,预计名为 GPT-5。
事实证明,GPT 系列暂时被一个全新的模型家族所超越。
今天,在最近几天加剧的数月报告和传言之后,OpenAI 宣布推出其“o1” AI 模型家族,包括两个模型:o1-preview 和 o1-mini,公司表示这些模型旨在“通过复杂任务进行推理并解决比 GPT 系列模型更难的问题”。
两个模型今天都对 ChatGPT Plus 用户开放,但最初限制为 o1-preview 每周 30 条消息,o1-mini 每周 50 条。
然而,OpenAI 也警告说,“作为一个早期模型,它还没有许多使 ChatGPT 有用的功能,比如浏览网页获取信息和上传文件和图像。对于许多常见情况,在近期内 GPT-4o 将更有能力。”
事实上,我们最初尝试使用它为本文创建图像的测试发现它无法做到。在 OpenAI 的 API 平台网站上,公司明确表示,在 beta 状态下,模型家族支持“仅限文本,不支持图像”。
OpenAI 声称其新的 o1 系列特别适合用户在科学、医疗保健和技术等领域解决复杂问题。
OpenAI 构想这些模型被用于广泛的应用,从帮助物理学家为量子光学生成数学公式,到协助医疗保健研究人员注释细胞测序数据。
开发者还会发现 o1-mini 模型对于构建和执行多步骤工作流程、调试代码和高效解决编程挑战非常有效。
用 OpenAI o1 破解逻辑谜题:
o1-preview 模型旨在通过投入更多时间思考和完善其响应来处理具有挑战性的任务,类似于一个人如何处理复杂问题。在测试中,这种方法使模型在物理、化学和生物等领域的表现接近博士生的水平。
OpenAI o1 和量子物理:
此外,o1-preview 模型在编码方面表现出色,在 Codeforces 竞赛中排名 89 百分位,展示了其处理多步骤工作流程、调试复杂代码和生成准确解决方案的能力。
在国际数学奥林匹克竞赛(IMO)资格赛等基准任务中,o1-preview 通过解决 83% 的问题展示了其能力,这是其前身 GPT-4o 13% 成功率的显著提高。
OpenAI o1 和代码:
它已经可以在 ChatGPT 中由 Plus 和 Team 用户使用,企业版和教育版用户将在下周获得访问权限。这些模型也通过 OpenAI API 向有资格使用 API 使用层 5 的开发者提供,尽管最初将适用速率限制。
与 o1-preview 同时,OpenAI 还推出了 o1-mini 模型,这是一个更精简的版本,旨在提供更快、更便宜的推理能力。
虽然主要针对编码和 STEM 任务进行了优化,但 o1-mini 仍然表现出色,特别是在数学和编程方面。
在 IMO 数学基准测试中,o1-mini 得分 70%,几乎与 o1-preview 的 74% 相匹配,同时提供了显著更低的推理成本。它在编码评估中也表现出色,在 Codeforces 上获得了 1650 的 Elo 分数,使其位于前 86% 的程序员之列。
与 o1-preview 相比,价格低了 80%,o1-mini 针对需要推理能力的开发者和研究人员,他们不需要更高级的 o1-preview 模型提供的更广泛知识。
这种性价比高的解决方案也将向 ChatGPT Plus、Team、Enterprise 和 Edu 用户开放,并计划将来向 ChatGPT Free 用户扩展访问权限。
根据 OpenAI 对安全的承诺,两个模型都采用了新的安全训练方法,增强了它们遵循安全和对齐指南的能力。
OpenAI 强调,o1-preview 在其最艰难的越狱测试中得分 84,比 GPT-4o 的 22 分有了显著提高。在上下文中对安全规则进行推理的能力使这些模型能够更好地处理不安全的提示,并避免生成不适当的内容。
作为更广泛安全工作的一部分,OpenAI 已与美国和英国的 AI 安全研究所达成协议。
这些合作伙伴关系包括授予研究版本的 o1 模型的早期访问权限,以帮助评估和测试未来的 AI 系统。
OpenAI 的安全工作还包括全面的内部治理和与联邦政府的合作,由公司的 Safety & Security Committee 进行定期测试、红队和董事会层面的监督。
尽管 o1-preview 和 o1-mini 模型是推理和解决问题的强大工具,但 OpenAI 承认这只是开始。
公司计划定期更新和改进这些模型,包括添加目前 API 版本中尚不可用的功能,如浏览、文件和图像上传以及函数调用。
展望未来,OpenAI 将继续开发其 GPT 和 o1 系列,进一步扩展 AI 在各个领域的能力。随着公司努力提高这些模型在不同应用程序中的实用性和可访问性,用户可以期待持续的进步。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-11
2024-07-11
2024-07-09
2024-09-18
2024-06-11
2024-07-23
2024-07-20
2024-07-12
2024-07-26
2024-07-23
2024-11-18
2024-11-16
2024-11-16
2024-10-31
2024-10-31
2024-10-27
2024-10-26
2024-10-25