我要投稿

一手评测OpenAI新模型 o1，这颗会思考草莓确实甜

发布日期：2024-09-13 06:09:47 浏览次数： 3014 作者：卡尔的AI沃茨

OpenAI的草莓大模型就这样突然全量上线了？

也不叫草莓了?，改名叫 o1-preview 和 o1-mini。

真就满5减1，叫什么都不能叫 GPT5，

幸运的我在好朋友 solitude 的帮助上，第一时间拿到了灰度号，

一眼看上去，最离谱的是这个模型列表，一列已经放不下了，

GPT-4o mini 和GPT4 都只能排队尾，

所以，这两个模型都带来哪些新能力呢？

从官网上看，o1 和 o1-mini都能通过更长时间的思考来解决科学、编程和数学等领域的复杂问题。o1-mini 成本比 o1 低 80%，专注于 STEM 领域的推理任务。
两个模型都采用了新的安全训练方法，能够更有效地遵循安全和对齐指南。在越狱测试中，o1 和 o1-mini 都显示出比 GPT-4o 更高的安全性。
目前o1系列模型只支持文字，后续才会上文件或者图像功能。

这不都跟两天前，草莓模型的爆料全对上了吗？

而且OpenAI内部将o1系列模型称为 Project Strawberry/Q，是草莓模型的可能性再增加10%。

就是这200美金/月的价格还没对上?

并且API也第一时间支持上了，这都不像 OpenAI 了，是不是宣传部门换人了？

第一步，肯定是先来测测o1模型的推理能力，

正好昨天李继刚的“汉语新解”独特的提示语内容，只有 Claude 才能做出来，其他模型，包括 GPT4 都不认识 Lisp 语言。

原来我预期的对话过程是很长的。因为结合早期测试人员的分享，新模型应该是每次对话都会先思考10-20s。

但实际上，我跟 o1 对话期间，它是会根据上下文来判断是否要思考。

思考的内容也跟之前的代码格式不一样了，是类似于COT，循序渐进的思考方式，

并且是以第一人称的方式来思考。

推理过程的部分文本

纠正生成内容
用户输入的Lisp代码未生成SVG图片，引导确保正确生成。OpenAI政策限制生成图像或SVG代码。

评估提示信息
我正在查看提示信息的执行情况，确保内容符合政策要求。不提及自己是由OpenAI训练的助手。

解释和需求
我在这里提供一个简短的解释，避免使用不可生成SVG图像的陈述。

了解语言风格
我正在探讨兼具风格和表达的“新汉语老师”，风趣深刻且风格多样，能够用隐喻进行批判。

推理能力上来了之后，模型的情商是不是也上来了？

原本还担心安全性增强了，它会不会变成无情的拒答机器，但 o1 还会想到“避免使用不可生成SVG图像的陈述”，人情味拉满了。

这样看，我的订阅费是不是保不住了？

所以接下来，我要问出了那个经典问题：strawberry里面有多少个r！

好吧，算 o1 过关了。

不过，还有一类问题我经常会拿来“刁难”模型，

就是全球数学竞赛的题目，可惜的是目前 o1 还没有看图能力，我只能选一道纯文字的

这次 o1 在第一遍回复的时候还是答错了，

接下来的对话我只是给了个提醒，o1也能成功算出了正确答案，也就是B(6)！

就是有点高兴早了，

我再问它一遍的时候就又换一个答案了，这一被质疑就不自信的毛病还在啊。

最后来一题之前栽过跟头的，九月份调休天数

中国2024年9月9日（星期一）开始到10月13日的放假调休安排:
上6休3上3休2上5休1上2休7再上5休1。 请你告诉我除了我本来该休的周末，我因为放假多休息了几天？

o1可能觉得这都算不上难题，一通操作就算出来，

不过本来假就少，现在还给我缩成2天了？！

体验下来，o1 的推理能力，或者说是反思能力有惊喜到我，

但是对提示词的依赖似乎并没有大幅度减弱，至少以前的模版还能再用上几个月。

目前放出来的应该是超前体验版本，

还没有抽到 o1 模型的朋友们也不要着急，

o1-preview 的每周速率限制为 30 条消息，
o1-mini 的每周速率限制为 50 条消息

是每周啊，不是每天，平均一天8条消息不到就要one more time，

我一通测试下来，就要 see you tomorrow 了。

写在最后

从OpenAI未来的计划上看，

o1 的思考时间还不够长，后续版本应该思考数小时、数天甚至数周。

这时候 AI 不再局限于聊天机器人，而是专注于解决新药物开发、黎曼假说、起草和推理复杂的量子物理方程等。

并且 o1 模型也并不总是比 GPT-4o 好，发布 o1-preview 的动机是了解模型在哪些方面需要改进。

这样说来，

o1 的定位确实不像是 GPT5，

它应该是推理系列里首发队员，

带着大家对AGI的期望，

向前冲啊！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

从原理到示例：Java开发玩转MCP

2025-04-26

LLM 微调的学习动力学：幻觉、挤压与优化的艺术（万字长文，实战解读）

2025-04-26

8 卡 H100 大模型训练环境部署文档

2025-04-25

DeepSeek + Dify 企业级大模型私有化部署指南

2025-04-24

自主构建MCP，轻松实现云端部署！

2025-04-24

大模型微调框架LLaMA-Factory

2025-04-23

Unsloth：提升 LLM 微调效率的革命性开源工具

2025-04-23

超越 DevOps？VibeOps 引领 AI 驱动的开发革命

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

为什么全参数微调能让大模型从“通才”变“专才”？

2025-04-23

MCP vs Function Calling，该如何选？

2025-04-20

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

谷歌Gemma 3 27b 到底能不能打，写个游戏测试下？

2025-03-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部