微信扫码
与创始人交个朋友
我要投稿
在openai o1发布24h后,有哪些值得关注的消息呢?
Andrew Mayne 的使用建议: https://x.com/andrewmayne/status/1834408991839158422
我已经使用了 @OpenAI 的 o1 几个星期。关于使用它的建议:
不要把它当作传统的聊天模型。把 o1 想象成一个非常聪明的朋友,你要给她发私信来解决问题。她会回复你一个经过深思熟虑的解释,逐步引导你解决问题。
在记事本中写你的提示。提前规划好你想要什么。详细解释所有步骤,提供比平时更多的细节。
对于那些不需要太多世界知识但需要逐步跟进的任务,使用 o1-mini。
o1 通常会给我部分答案和完整回应,而 o1-mini 会给我步骤。
根据我的经验,当你进行修正或调整时,要耐心地解释你需要改变的内容。那些具备推理能力的模型对经过推理的回应会有很好的反应。
@btibor91 分享在 OAI 研究团队 AMA 的总结 https://x.com/btibor91/status/1834686946846597281
模型名称和推理模式
OpenAI o1 这个名字代表了 AI 能力的新水平,因此编号重置为 1
"Preview" 表示这是完整模型的早期版本
"Mini" 意味着这是 o1 模型的较小版本,优化了速度
o - 表示 OpenAI
o1 不是一个“系统”;它是一个经过训练的模型,用于在返回最终答案之前生成长链的思考
o1 的图标隐喻为一位具有非凡能力的外星人
o1-mini 比 o1-preview 小得多且速度更快,因此未来会提供给免费用户
o1-preview 是 o1 模型的早期检查点,既不大也不小
o1-mini 在 STEM 任务中的表现优于 o1-preview,但世界知识有限
与 o1-preview 相比,o1-mini 在一些任务中表现更好,尤其是在代码相关任务中
o1 的输入 tokens 计算方式与 GPT-4o 相同,使用相同的分词器
o1-mini 能够探索更多的思考链条,相较于 o1-preview
o1 模型将很快支持更大的输入上下文
o1 模型能够处理更长、更开放的任务,较少需要将输入分块,与 GPT-4o 相比
o1 能够在提供答案之前生成长链的思考,与之前的模型不同
当前无法在 CoT 推理过程中暂停以添加更多上下文,但正在为未来模型探索这一功能
o1-preview 尚未使用工具,但计划支持函数调用、代码解释器和浏览功能
未来更新将加入工具支持、结构化输出和系统提示
用户可能最终可以控制思考时间和 token 限制
计划启用流式处理,并在 API 中考虑推理进度
o1 内置了多模态能力,旨在在 MMMU 等任务中达到最先进的性能
o1 在推理过程中生成隐藏的思考链
没有计划向 API 用户或 ChatGPT 透露 CoT tokens
CoT tokens 会被总结,但不能保证与实际推理完全一致
提示中的指令可以影响模型如何思考问题
o1 使用强化学习(RL)来改进 CoT,而 GPT-4o 仅通过提示无法匹配 o1 的 CoT 性能
思考阶段看起来较慢,因为它总结了思维过程,尽管答案生成通常更快
API 和使用限制
o1-mini 对于 ChatGPT Plus 用户每周有 50 个提示的限制
在 ChatGPT 中所有提示的计数相同
未来会推出更多的 API 访问层级和更高的速率限制
API 中的提示缓存是一个热门请求,但尚无时间表
定价、微调和扩展
o1 模型的定价预计将遵循每 1-2 年降价的趋势
一旦速率限制增加,将支持批量 API 定价
微调在计划中,但尚无时间表
扩展 o1 受到研究和工程人才的瓶颈
新的推理计算扩展范式可能在未来模型中带来显著提升
逆向扩展尚不显著,但个人写作提示显示 o1-preview 相比 GPT-4o 仅表现稍微更好(或稍微差)
模型开发和研究洞察
o1 通过强化学习进行训练,以实现推理性能
该模型展示了创造性思维和在诗歌等侧向任务中的强大表现
o1 的哲学推理和通用能力,比如解码密码,令人印象深刻
研究人员使用 o1 创建了一个 GitHub 机器人,自动联系合适的 CODEOWNERS 进行审查
在内部测试中,o1 自我测验难题以评估其能力
正在增加广泛的世界知识,并将在未来版本中改进
计划为 o1-mini 提供更新的数据(目前为 2023 年 10 月)
提示技术和最佳实践
o1 受益于提供边缘案例或推理风格的提示
o1 模型比早期模型更能接受提示中的推理线索
在检索增强生成(RAG)中提供相关上下文可以提高性能;不相关的内容可能会恶化推理效果
一般反馈和未来改进
由于处于早期测试阶段,o1-preview 的速率限制较低,但会逐步增加
正在积极改进延迟和推理时间
卓越的模型能力
o1 能够思考哲学性问题,如“生命是什么?”
研究人员发现 o1 在处理复杂任务和从有限指令中进行泛化方面表现出色
o1 的创造性推理能力,如自我测验以评估其能力,展示了其高水平的问题解决能力
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-21
22.4K+ Star!Chatbox:你的终极AI桌面助手
2024-11-21
Magentic-One:微软开源多智能体系统,让 AI 自己动手解决问题
2024-11-21
阿里发布Qwen2.5-Turbo,支持100万Tokens上下文!
2024-11-20
MNN在大模型端侧部署上的探索
2024-11-19
从浏览器自动化到个人助手,Skyvern又悄悄占据了AI市场的一席之地?
2024-11-19
超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!
2024-11-16
OpenHands + Ollama:你的AI编程助手使用指南
2024-11-15
如何用 Multi Agent 优化你的多智能体系统?详解开发与应用!
2024-05-06
2024-07-25
2024-08-13
2024-06-12
2024-06-16
2024-07-11
2024-07-20
2024-06-15
2024-07-25
2024-07-25
2024-11-19
2024-11-13
2024-11-13
2024-10-07
2024-09-22
2024-09-20
2024-09-14
2024-09-14