我要投稿

OpenAI突然放出o1——我用海龟汤问题测试后o1可以用来出版推理小说了

发布日期：2024-09-13 08:26:09 浏览次数： 3362

作者：LLM榴莲猫

微信搜一搜，关注“LLM榴莲猫”

几乎是毫无预兆，

OpenAI发布OpenAI o1模型，也就是之前所谓的草莓Q模型，它的能力比4o提升了一大截：

o1是一个通过强化学习训练的大型语言模型，分为两个模型，o1预览版和o1 mini，o1 mini版是一个高效、紧凑且经济的模型，推理能力强但普通知识比较弱。

o1预览版每周30条，o1-mini每周50条。

o1显著的特点是具备"思考链"(Chain of Thought)能力。

分解复杂问题：o1能够将一个复杂的问题分解为多个子步骤，然后逐步解决。

自我纠错：在推理过程中，o1能够识别并纠正自己的错误,这大大提高了最终结果的准确性。

尝试多种方法：当一种方法不奏效时，o1能够尝试不同的解题策略，这种灵活性使其能够处理各种各样的问题。

透明的推理过程：o1能够清晰地展示其推理过程,这不仅提高了结果的可解释性，也为进一步改进模型提供了宝贵的洞察。

目前我的Plus账号已经推送了o1-mini和o1-preview的模型。

其他资讯都大同小异，

下面我用著名的海龟汤问题来测试下模型的能力。

海龟汤游戏是一种推理游戏，其中玩家需要根据一个简短的故事背景（“汤面”）猜测出隐藏的故事真相（“汤底”）。

游戏的规则很简单：玩家可以提出是/否类型的问题，裁判只能根据已知的“汤底”来判断问题的答案。

比如用户可能会问：汤里有毒药吗？

裁判就会回答：不是。

这个循环直到用户猜到真相为止。

接来下我喂给o1几个案例，然后再用一个新的案例考考他：

故事：

一个女人死了，警察在房间发现了很多条这样的字条。

你太令我失望了，我永远也不会回来了\"\"你太令我失望了，我永远也不会回来了\"\"你太令我失望了，我永远也不会回来了\"\"你太令我失望了，我永远也不会回来了\"\"你太令我失望了，我永远也不会回来了\"\"你太令我失望了，我永远也不会回来了\"\n\n哎，我知道我遇到麻烦了。"

可以看到o1的思考步骤，每次回答基本都会调用内部的推理流程，一开始就花了15秒：

它的问题太让我吃惊了，每个问题都精准的问到点子上，太吓人了：

随着推理的深入，o1的思考时间会变长，思考的步骤逻辑会发生变化和改进，这次花了23秒：

这里它的推理能力是惊人的，几乎复盘了案件的真相：

凶手是死者的伴侣，而且伪造了字条，

有点东西。

到最后o1完全复盘了案件的经过：

甚至还有更精彩的版本：

推理小说以后是不是可以靠o1写了？

大家赶紧去体验一波！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-04-26

Linux基金会背书 Goose：全能型本地 AI Agent 杀手，一键接管你的所有工作流！

2026-04-26

今天起，DeepSeek V4成OpenClaw默认模型！

2026-04-26

初识OpenSpec

2026-04-25

DeepSeek V4报告太详尽了！484天换代之路全公开

2026-04-24

阿里云 AI 网关支持 DeepSeek V4

2026-04-24

一手实测 DeepSeek V4，代码能力真的很强

2026-04-24

DeepSeek-V4 终于来了！1M上下文，开源模型新王登基

2026-04-24

Deepseek V4终于发布，但它留下的5道主观题还没有答案

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

重磅开源！Kimi K2.5 本地部署全攻略：手把手教你跑通 1T MoE 巨兽

2026-01-30

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

全网都在猜DeepSeek V4的发布时间，但国产模型激战还有一条暗线

2026-02-14

1700人收藏！港大开源 ClawWork：开局 10 美元，AI 靠打工 7 小时狂赚 1 万刀！

2026-02-18

大家都在问

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

你的 AI Agent 真的在受控运行吗？

2026-03-13

137K 行代码、零 clippy 警告：这个开源项目凭什么让 AI Agent 领域炸锅？

2026-03-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部