AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


一手评测OpenAI新模型 o1,这颗会思考草莓确实甜
发布日期:2024-09-13 06:09:47 浏览次数: 1967


OpenAI的草莓大模型就这样突然全量上线了?

也不叫草莓了?,改名叫 o1-preview 和 o1-mini

真就满5减1,叫什么都不能叫 GPT5,

幸运的我在好朋友 solitude 的帮助上,第一时间拿到了灰度号,

一眼看上去,最离谱的是这个模型列表,一列已经放不下了,

GPT-4o mini 和GPT4 都只能排队尾,

所以,这两个模型都带来哪些新能力呢?

  • 从官网上看,o1 和 o1-mini都能通过更长时间的思考来解决科学、编程和数学等领域的复杂问题。o1-mini 成本比 o1 低 80%,专注于 STEM 领域的推理任务。

  • 两个模型都采用了新的安全训练方法,能够更有效地遵循安全和对齐指南。在越狱测试中,o1 和 o1-mini 都显示出比 GPT-4o 更高的安全性。

  • 目前o1系列模型只支持文字,后续才会上文件或者图像功能。

这不都跟两天前,草莓模型的爆料全对上了吗?

而且OpenAI内部将o1系列模型称为 Project Strawberry/Q,是草莓模型的可能性再增加10%。

就是这200美金/月的价格还没对上?

并且API也第一时间支持上了,这都不像 OpenAI 了,是不是宣传部门换人了?

第一步,肯定是先来测测o1模型的推理能力

正好昨天李继刚的“汉语新解”独特的提示语内容,只有 Claude 才能做出来,其他模型,包括 GPT4 都不认识 Lisp 语言。

原来我预期的对话过程是很长的。因为结合早期测试人员的分享,新模型应该是每次对话都会先思考10-20s。

但实际上,我跟 o1 对话期间,它是会根据上下文来判断是否要思考。

思考的内容也跟之前的代码格式不一样了,是类似于COT,循序渐进的思考方式,

并且是以第一人称的方式来思考。

推理过程的部分文本

纠正生成内容
用户输入的Lisp代码未生成SVG图片,引导确保正确生成。OpenAI政策限制生成图像或SVG代码。

评估提示信息
我正在查看提示信息的执行情况,确保内容符合政策要求。不提及自己是由OpenAI训练的助手。

解释和需求
我在这里提供一个简短的解释,避免使用不可生成SVG图像的陈述。

了解语言风格
我正在探讨兼具风格和表达的“新汉语老师”,风趣深刻且风格多样,能够用隐喻进行批判。

推理能力上来了之后,模型的情商是不是也上来了?

原本还担心安全性增强了,它会不会变成无情的拒答机器,但 o1 还会想到“避免使用不可生成SVG图像的陈述”,人情味拉满了。

这样看,我的订阅费是不是保不住了?

所以接下来,我要问出了那个经典问题:strawberry里面有多少个r

好吧,算 o1 过关了。

不过,还有一类问题我经常会拿来“刁难”模型,

就是全球数学竞赛的题目,可惜的是目前 o1 还没有看图能力,我只能选一道纯文字的

这次 o1 在第一遍回复的时候还是答错了,

接下来的对话我只是给了个提醒,o1也能成功算出了正确答案,也就是B(6)!

就是有点高兴早了,

我再问它一遍的时候就又换一个答案了,这一被质疑就不自信的毛病还在啊。

最后来一题之前栽过跟头的,九月份调休天数

中国2024年9月9日(星期一)开始到10月13日的放假调休安排:

上6休3上3休2上5休1上2休7再上5休1。 请你告诉我除了我本来该休的周末,我因为放假多休息了几天?

o1可能觉得这都算不上难题,一通操作就算出来,

不过本来假就少,现在还给我缩成2天了?!

体验下来,o1 的推理能力,或者说是反思能力有惊喜到我,

但是对提示词的依赖似乎并没有大幅度减弱,至少以前的模版还能再用上几个月。

目前放出来的应该是超前体验版本,

还没有抽到 o1 模型的朋友们也不要着急,

  • o1-preview 的每周速率限制为 30 条消息,
  • o1-mini 的每周速率限制为 50 条消息

是每周啊,不是每天,平均一天8条消息不到就要one more time,

我一通测试下来,就要 see you tomorrow 了。

写在最后

从OpenAI未来的计划上看,

o1 的思考时间还不够长,后续版本应该思考数小时、数天甚至数周

这时候 AI 不再局限于聊天机器人,而是专注于解决新药物开发、黎曼假说、起草和推理复杂的量子物理方程等。

并且 o1 模型也并不总是比 GPT-4o 好,发布 o1-preview 的动机是了解模型在哪些方面需要改进。

这样说来,

o1 的定位确实不像是 GPT5,

它应该是推理系列里首发队员

带着大家对AGI的期望,

向前冲啊!


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询