AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


OpenAI o1 团队在线答疑:o1的o指OpenAI,强化后的推理有泛化能力,未来模型思考时间可控!
发布日期:2024-09-21 22:43:39 浏览次数: 1733 来源:Founder Park


这可能是最有参与感的一次产品问答了。

对于 OpenAI o1 的所有疑问和好奇,由推特的所有网友来提问,OpenAI 的全体技术人员来回答。数了下,一共有 12 位员工出现,这其中有各个方向的研究员和研究科学家,以及产品经理、产品主管

至于提问,从模型命名、模型的大小和模态,到提示词、思维链、上下文长度,以及价格,可以说,大家关注的问题,基本都在里面了。

参与问答的 OpenAI 人员:

Ahmed El-Kishky:OpenAI 研究

Łukasz Kondraciuk:草莓训练设施负责人,华沙大学计算机科学,ACM ICPC 2022 银牌

Shengjia Zhao:OpenAI 研究科学家,斯坦福大学博士

Romain Huet:GPT-4o、o1 开发者体验主管,曾任 Stripe、Twitter 产品主管

Hongyu Ren:OpenAI 研究科学家,斯坦福大学博士,曾就职 Apple、Google、Nvidia

Wenda Zhou:OpenAI 研究员

Max Schwarzer:OpenAI 研究员,曾就职 Apple、DeepMind

Nikunj Handa:OpenAI 产品经理

Hyung Won Chung:OpenAI 研究科学家,MIT 博士

Noam Brown:OpenAI 研究员,专攻推理方向

Jerry Tworek:OpenAI 研究员

Jason Wei:OpenAI 研究科学家

点击关注,每天更新深度 AI 行业洞察


01 

o 代表 OpenAI,o1 是多模态

网友:除了已经发布的评估结果,在你们测试中,o1 最让人印象深刻的是什么?

Hyung Won Chung模型在处理哲学问题时的思考过程非常有趣,比如「什么是生命?」还有我展示的韩语密文例子,也非常惊艳,因为我们并没有直接教它这种技能,它是通过泛化得出的。

Noam Brown我告诉它「你是 OpenAI 的新模型」,然后让它解释自己的特点。在 CoT 过程中,它开始自问一些难题,试图评估自己的能力。虽然它表现得不太好,但它尝试的过程让我印象深刻。

Jerry Tworek:对我们 OpenAI 的工作确实很有帮助,这当然是最重要的。

Lorenz Kuhn(研究员):从质量上看,看到模型尝试用不同方法解决一个很棘手的问题,然后反复检查,最后得到正确答案,真的挺酷的。

网友:你认为新的推理计算方式能否在未来几代中带来像 GPT-2 到 GPT-4 那样的能力飞跃?

Wenda Zhou我们还处于这个新范式的早期阶段。

网友:你们是怎么给 o1、o1-preview 和 o1-mini(或者 o1-mini-preview)起名的?

Romain Huet:因为这代表了 AI 能力的新阶段,所以我们决定从头开始,把这一系列称为 OpenAI o1。preview 是预览版,mini 是因为它体积更小!

网友:o 代表猎户座还是 OpenAI?

Romain HuetOpenAI!

网友:o1 是多模态吗?想知道这是在构建多模态的基础设施,还是仅仅是文本问题?

Wenda Zhou:OpenAI o1 是多模态的,还在 MMMU 上实现了 SOTA!

网友:o1 是哪种 AI?是猫 AI 还是狗 AI?

Łukasz Kondraciuk:有人问 o1 时,o1 回答说:「我没有感情,也没有具体的形态,所以既不是猫也不是狗。不过如果打个比方,我是天生友好、乐于助人、反应灵敏的。」——这些通常是狗的特质。

网友:o1-preview 和 o1-mini,我很惊讶第二个模型不叫 o1-mini-preview,是不是因为 mini 不是预览模型,它会持续用一段时间?而 o1-preview 只是 o1 模型的预览,所以是临时的?

Shengjia Zhao没错!o1-preview 是即将发布的 o1 模型的预览,而 o1-mini 不是未来模型的预览版。o1-mini 可能会在不久的将来更新,但不一定。

网友:为什么虽然 o1-mini 是「mini」,但在某些任务上表现比 o1-preview 还好?

Hongyu Ren:OpenAI o1-mini 针对 STEM 应用的各个训练和数据阶段进行了优化。

网友:o1 mini 能比 o1 Preview 生成更多的思维链吗?

Shengjia Zhao:是的。

网友:为什么答案生成速度比思考阶段快那么多?o1 是单模态还是多模态的?

o1-mini 和 o1-preview(还有 o1)与 gpt-4o 相比,参数是更大还是更小?

Hyung Won Chung:答案部分通常(但不一定总是)比思考阶段短。我们暂时不公开参数数量。思考阶段是对整个思维过程的总结,所以看起来慢一点。

o1 目前只支持单模态的文本。


02 

相比 4o 提示词风格有变化

网友:o1 和之前的模型在提示词上有什么大不同?

Hyung Won Chung:虽然没有很明确的技术原因说明为什么 OpenAI o1 需要更多提示,但我们发现它能从一些提示中受益,比如展示边缘情况或潜在推理风格。这个模型在获取这些提示线索方面表现不错,因为它擅长推理!

网友:什么时候给 o1 用 few-shot 提示词比较合适?

Hyung Won Chung展示边缘情况和潜在推理风格会对模型有帮助。OpenAI o1 擅长从给出的示例中推理出线索。

网友:o1 有什么新的提示词技巧吗?

Hyung Won Chung虽然没有技术原因说明为什么 OpenAI o1 需要更多提示,但根据我们的经验,它能从展示边缘情况和潜在推理风格的提示中受益。模型在从这些提示中获取线索方面表现不错。

网友:o1 的输入 token 是怎么计算的?

Nikunj Handao1 的 token 计算方式跟 4o 是一样的,两者使用相同的分词器:https://github.com/openai/tiktoken/

网友:模型大小会不会限制推理能力的上限?

Jerry Tworek目前还没发现模型大小对扩展有任何限制,到现在为止,我们只是把它推到了某个程度。

网友:你们打算在推理过程中进行函数调用吗?比如谷歌搜索、查询数据库、创建记忆。

Ahmed El-Kishky:目前还没有具体的时间表可以分享,但我们计划在推理时启用模型,支持函数调用和使用各种工具,比如代码执行和浏览功能。

网友:关于新 o1 模型,它们真的可以长时间生成内容吗?比如说,如果应用的上下文适合(少于 128k tokens),它能一次性重构整个 NextJS React 应用吗?还是还需要分块处理?

Max Schwarzer:

o1 肯定能完成比之前模型更复杂、更开放的任务,所以你不需要像 4o 那样分太多块。随着模型不断提升,任务切块的需求会越来越少。

网友:能解释一下文档里这句话吗?

「限制检索增强生成(RAG)中的附加上下文:提供附加上下文或文档时,最好只包含最相关的信息,避免模型响应过于复杂。」

我想了解该怎么平衡 RAG 和上下文。以前我是把所有东西都丢进去,现在不这么做了吗?

Nikunj Handa我们早期测试发现,把太多不相关的内容塞进上下文会导致性能下降,推理时的 token 使用率也更高。未来我们可能会改进这个问题,但目前建议尽量用少且相关的内容。


03 

未来会延长思考时间,甚至可以暂停

网友:能解释一下吗,o1 是在后台运行思维链,然后给我们答案,还是一个专门用于推理的模型,只是输出时隐藏了中间过程的 token,只显示最终答案?

Noam Brown我不会把 o1 称「系统」。它是个模型,但和之前的模型不同,它会在给出最终答案前生成一条很长的思维链。

网友:

  1. 在 o1 模型的设计中,你有没有发现什么反向扩展(inverse scaling)的例子?分享一下应该会很有趣。

  2. 「不要只通过提示做 CoT,训练模型用强化学习来更好地处理 CoT」。希望能在你的基准测试中看到一些对比结果。

Jason Wei:

  1. 我还没遇到特别明显的反向扩展例子(也就是模型表现变差的情况),但我相信有人会找到一些!你可以在我们的博客里看到,在某些提示下,比如「个人写作」,OpenAI o1-preview 并不比 GPT-4o 表现好,甚至稍微差一点。https://openai.com/index/learning-to-reason-with-llms/…

  2. 我不确定如何进行最公平的对比,但我可以肯定地说,无论你怎么提示 GPT-4o,它大概率也拿不到 IOI 金牌!

网友:CoT 的过程被隐去了,如何保证最后生成的答案摘要是忠于推理过程的呢?你能提供一下你们是怎么写摘要器提示词的吗?

Noam Brown:虽然我们希望摘要模型尽可能忠实原文,但不能保证它完全准确。我强烈建议不要假设它对 CoT 忠实,也不要假设 CoT 对模型的推理完全忠实!

网友追问:有意思,在 ChatGPT 中,思考步骤是个摘要吗?

另一位网友对,模型会生成 CoT 的总结——「在考虑了用户体验、竞争优势以及思维链监控的可能性后,我们决定不向用户展示原始思维链……在 o1 系列中,我们展示的是模型生成的思维链摘要。

网友:未来 API 能不能让用户控制「思考时间」或推理时的计算量?

Noam Brown:我们希望将来能让用户对模型的思考时间有更多控制。

网友:有没有办法强制延长思考时间?

Max Schwarzer现在还没有这个选项,但我们希望将来能提供更多控制思考时间的功能!

网友:未来有没有可能在 o1 的 CoT 推理过程中暂停,添加更多上下文后再继续推理?

Nikunj Handa:目前还不行。不过这是个好主意,我们会在未来的模型中探索这个可能性!


04 

代码解释器在开发中了

网友:你们是否计划在下一次迭代中专注于 LLM 的非语言思维?语言的逻辑顺畅对人类来说更好理解,但生成语法正确的句子会浪费大量计算,FLOP 训练应该更关注信息生成。

Jerry Tworek:这是个有意思的研究方向。我们在尝试很多改进模型的方法,不过很难说哪种会是未来的最佳方案。

网友:下一步有什么计划?比如预览持续时间、基准测试中 o1 的可用性,还有缺少的功能/工具?

图像识别功能什么时候发布?API 什么时候会支持提示缓存?

Ahmed EI-Kishky:虽然预览持续时间还没确定,但我们计划逐步推出其他功能,包括代码解释器和浏览等工具功能。

网友:流式传输功能会通过 API 支持吗?会像 ChatGPT 应用中那样展示推理进度吗?我们以后可以围绕这个功能做界面吗?

Nikunj Handa:我们肯定会添加对流式传输的支持,并且正在考虑添加推理进度的功能。感谢你的反馈!

网友:我们可以在 API 请求中设置一个参数,限制推理过程中消耗的 token 数量吗?

Nikunj Handa:这是个不错的功能!目前的模型还不支持,但我们会考虑在未来模型中添加这个选项。

网友:你们是怎么用 o1 来研究代码的?HTML Snake 确实很酷,但我更想知道它在研究方面的应用。

Lukasz Kondraciuk:OpenAI 代码库里已经有好几个 PR 是 o1 独立完成的!

Wenda Zhou我们有位研究员还开发了一个 Github 机器人,能自动 ping 对应的代码负责人来审核。


05

token 会降价,目前很缺人

网友:为什么现在的使用限制这么低?o1-preview 每周只有 30 次?以后会变成每日限制吗?

Romain Huet:我们知道一开始的限制比较低,但很高兴看到大家都开始体验 o1。我们会努力逐步提高使用限制。

网友:为什么只有 T5 用户能用 o1?

Romain Huet:我们希望开发者能从一开始就体验 OpenAI o1。我们还在努力扩大访问权限和使用速率,但很快就会更广泛开放!

网友:T4 以下的用户什么时候可以用 o1?

Nikunj Handa我们希望在接下来的几周内,扩展访问权限给更多用户。

网友:o1 的价格会像现在的 GPT-4o 一样便宜吗?

Nikunj Handa很难准确预测 o1 和 4o 的未来价格,但我们相信 o1 某些模型的 token 价格会更低。

网友:什么时候价格会降到 0?

Shengjia Zhao从历史数据来看,价格每 1-2 年就会下降 10 倍,这种趋势可能还会继续。

网友:o1 的微调什么时候上线?

Nikunj Handa我们对此非常期待,已经在计划中了!不过目前还没有确切的时间表可以分享。

网友:

  • 你们有考虑过更大输入 token 上下文的版本吗?

  • o1-mini 相比 o1-preview 和 o1 小多少?

  • o1 比 o1-preview 大还是小?

Max Schwarzer:

  • 我们很快会支持更大的输入上下文!

  • 我们不能透露具体尺寸,但 o1-mini 确实要小很多,速度也快得多,这也是我们能提供给所有免费用户的原因。

  • o1-preview 是 o1 的早期版本,尺寸和 o1 没什么区别。

网友:现在扩展 o1 的最大瓶颈是什么?

Łukasz Kondraciuk最大的限制是研究和工程人才的短缺。虽然 OpenAI o1 很擅长编程,但它还不能自己做研究(至少现在还不行 :)


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询