微信扫码
添加专属顾问
我要投稿
在openai o1发布24h后,有哪些值得关注的消息呢?
Andrew Mayne 的使用建议: https://x.com/andrewmayne/status/1834408991839158422
我已经使用了 @OpenAI 的 o1 几个星期。关于使用它的建议:
不要把它当作传统的聊天模型。把 o1 想象成一个非常聪明的朋友,你要给她发私信来解决问题。她会回复你一个经过深思熟虑的解释,逐步引导你解决问题。
在记事本中写你的提示。提前规划好你想要什么。详细解释所有步骤,提供比平时更多的细节。
对于那些不需要太多世界知识但需要逐步跟进的任务,使用 o1-mini。
o1 通常会给我部分答案和完整回应,而 o1-mini 会给我步骤。
根据我的经验,当你进行修正或调整时,要耐心地解释你需要改变的内容。那些具备推理能力的模型对经过推理的回应会有很好的反应。
@btibor91 分享在 OAI 研究团队 AMA 的总结 https://x.com/btibor91/status/1834686946846597281
模型名称和推理模式
OpenAI o1 这个名字代表了 AI 能力的新水平,因此编号重置为 1
"Preview" 表示这是完整模型的早期版本
"Mini" 意味着这是 o1 模型的较小版本,优化了速度
o - 表示 OpenAI
o1 不是一个“系统”;它是一个经过训练的模型,用于在返回最终答案之前生成长链的思考
o1 的图标隐喻为一位具有非凡能力的外星人
o1-mini 比 o1-preview 小得多且速度更快,因此未来会提供给免费用户
o1-preview 是 o1 模型的早期检查点,既不大也不小
o1-mini 在 STEM 任务中的表现优于 o1-preview,但世界知识有限
与 o1-preview 相比,o1-mini 在一些任务中表现更好,尤其是在代码相关任务中
o1 的输入 tokens 计算方式与 GPT-4o 相同,使用相同的分词器
o1-mini 能够探索更多的思考链条,相较于 o1-preview
o1 模型将很快支持更大的输入上下文
o1 模型能够处理更长、更开放的任务,较少需要将输入分块,与 GPT-4o 相比
o1 能够在提供答案之前生成长链的思考,与之前的模型不同
当前无法在 CoT 推理过程中暂停以添加更多上下文,但正在为未来模型探索这一功能
o1-preview 尚未使用工具,但计划支持函数调用、代码解释器和浏览功能
未来更新将加入工具支持、结构化输出和系统提示
用户可能最终可以控制思考时间和 token 限制
计划启用流式处理,并在 API 中考虑推理进度
o1 内置了多模态能力,旨在在 MMMU 等任务中达到最先进的性能
o1 在推理过程中生成隐藏的思考链
没有计划向 API 用户或 ChatGPT 透露 CoT tokens
CoT tokens 会被总结,但不能保证与实际推理完全一致
提示中的指令可以影响模型如何思考问题
o1 使用强化学习(RL)来改进 CoT,而 GPT-4o 仅通过提示无法匹配 o1 的 CoT 性能
思考阶段看起来较慢,因为它总结了思维过程,尽管答案生成通常更快
API 和使用限制
o1-mini 对于 ChatGPT Plus 用户每周有 50 个提示的限制
在 ChatGPT 中所有提示的计数相同
未来会推出更多的 API 访问层级和更高的速率限制
API 中的提示缓存是一个热门请求,但尚无时间表
定价、微调和扩展
o1 模型的定价预计将遵循每 1-2 年降价的趋势
一旦速率限制增加,将支持批量 API 定价
微调在计划中,但尚无时间表
扩展 o1 受到研究和工程人才的瓶颈
新的推理计算扩展范式可能在未来模型中带来显著提升
逆向扩展尚不显著,但个人写作提示显示 o1-preview 相比 GPT-4o 仅表现稍微更好(或稍微差)
模型开发和研究洞察
o1 通过强化学习进行训练,以实现推理性能
该模型展示了创造性思维和在诗歌等侧向任务中的强大表现
o1 的哲学推理和通用能力,比如解码密码,令人印象深刻
研究人员使用 o1 创建了一个 GitHub 机器人,自动联系合适的 CODEOWNERS 进行审查
在内部测试中,o1 自我测验难题以评估其能力
正在增加广泛的世界知识,并将在未来版本中改进
计划为 o1-mini 提供更新的数据(目前为 2023 年 10 月)
提示技术和最佳实践
o1 受益于提供边缘案例或推理风格的提示
o1 模型比早期模型更能接受提示中的推理线索
在检索增强生成(RAG)中提供相关上下文可以提高性能;不相关的内容可能会恶化推理效果
一般反馈和未来改进
由于处于早期测试阶段,o1-preview 的速率限制较低,但会逐步增加
正在积极改进延迟和推理时间
卓越的模型能力
o1 能够思考哲学性问题,如“生命是什么?”
研究人员发现 o1 在处理复杂任务和从有限指令中进行泛化方面表现出色
o1 的创造性推理能力,如自我测验以评估其能力,展示了其高水平的问题解决能力
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-01
阿里巴巴开源:AI框架,快速落地大模型应用
2025-04-01
开源Manus替代:智谱AutoGLM沉思来了
2025-04-01
Heygem - Heygen的开源平替产品
2025-04-01
挖到一个Deep Research和Manus的替代品,是新发布的开源项目,香
2025-04-01
字节跳动MegaTTS 3!0.45B超轻量语音克隆模型,中英文混合输出+口音控制黑科技
2025-04-01
开源 Remote MCP Server 一站式托管来啦!
2025-04-01
MCP的配置文件解析。不过讲真,配置文件仍然是MCP最失败的设计之一!
2025-04-01
47.3K star!这款开源RAG引擎真香!文档理解+精准检索+可视化干预,一站式搞定!
2025-01-01
2024-07-25
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-06-12
2024-07-11
2024-08-13
2024-12-26
2025-04-01
2025-03-31
2025-03-25
2025-03-25
2025-03-24
2025-03-22
2025-03-19
2025-03-17