微信扫码
添加专属顾问
我要投稿
深入解析ChatGPT的不足之处,对比不同AI模型的推理效率和准确性。核心内容:1. ChatGPT处理复杂问题时的局限性和隐性降智现象2. Grok-3与DeepSeek-R1在处理相同问题时的效率和准确性对比3. 不同AI模型推理过程的详细解析
OpenAI 不值得,完全就是一个弱智(4o 不能识图或生图,o1 不推理)。连续开了近两年的 ChatGPT Plus,已被我退订了。隐性降智真难绷,在处理复杂问题时随机给你个弱智结果,让人去验证太心累了...
相比之下,免费版 Grok-3 就靠谱多了,是时候换个模型服务订阅了!
ChatGPT 降智的问题在网上已经被讨论很久了,我之前也没写文章聊聊。趁现在我的 ChatGPT 也降智了,就来详细聊聊这个话题。事情起因是这样的,我最近使用 o1 模型提问,很多问题都在几秒内给出回答,而且推理的过程十分简单,就感觉应该是被降智了。然后我用之前 OpenAI 自己提问过的一个问题进行测试,给出的结果更是离谱,反观免费版 Grok-3 ,那是真靠谱。
Prompt: strawberry 有几个 r?
相同的问题,我也用 DeepSeek 测试了一下,虽然给出了正确答案,但耗时有点久(91s),这么比对下来似乎 Grok-3(13s)更高效,最有意思的是,Grok-3 在思考过程中认为结果 3 应该用框框起来,结果真搞了框。
DeepSeek-R1 与 Grok-3 似乎使用了不同的推理策略,单从本次测试结果来看,我个人更倾向于 Grok-3 的推理过程。下面我粘贴了这两个模型的推理:
DeepSeek 推理过程
嗯,用户问的是“strawberry 有几个 r?”,首先我要确定这个词的正确拼写。strawberry这个词有时候可能会有拼写错误,比如是否双写某个字母。不过我记得正确的拼写应该是s-t-r-a-w-b-e-r-r-y。让我再仔细检查一下。
先分解一下字母:s, t, r, a, w, b, e, r, r, y。对,中间有两个r。在单词中间,也就是在“b”之后,有两个连续的r,对吗?比如“strawb”之后是“erry”部分,所以应该是e-r-r-y,所以这里有两个r。那么整个单词中有三个r吗?或者我哪里数错了?
等一下,让我再仔细数一遍。分解每个字母:
1. S
2. T
3. R
4. A
5. W
6. B
7. E
8. R
9. R
10. Y
所以从字母顺序来看,第三个字母是R,然后第八和第九个字母都是R。所以总共有三个R?还是我在分解的时候出错了?
不对,可能我的分解有误。正确的拼写应该是s-t-r-a-w-b-e-r-r-y,对吗?让我再确认一下。正确的拼写是strawberry,中间有两个r,在“ber”之后还有一个r,所以是berr?比如,应该是b-e-r-r-y,所以这里有双r,对吗?
这样的话,整个单词中有两个r:第一个在开头部分str中的r,然后后面有两个r在berry部分?或者后面的berry部分有两个r,而前面还有一个r?
等等,现在可能混淆了。让我再重新拼写一遍:
s-t-r-a-w-b-e-r-r-y。是的,分解后:
s (1), t(2), r(3), a(4), w(5), b(6), e(7), r(8), r(9), y(10)。所以有三个r吗?字母3、8、9都是r?那总共有三个r?
但是这可能不对,因为正确的拼写应该是strawberry,中间可能只有一个r在berry部分。可能我记错了,正确的拼写是s-t-r-a-w-b-e-r-r-y,是的,有两个r在结尾部分,所以总共有三个r?或者是不是这样?
等一下,可能我在这里搞错了。正确的拼写其实是s-t-r-a-w-b-e-r-r-y,也就是说,在“berry”部分有两个r,而前面的“straw”中的r是一个,所以总共是三个r?但根据我的记忆,正确的拼写应该是只有一个r在“straw”部分,然后在“berry”部分有两个r?
或者是不是前面的“straw”没有r?比如,straw的拼写是s-t-r-a-w,所以是的,有一个r。然后berry是b-e-r-r-y,有两个r。所以总共有三个r:一个在straw,两个在berry?
如果是这样的话,答案应该是三个r。但是这可能吗?让我再查证一下,因为可能我的记忆有误。比如,strawberry的正确拼写确实是有两个r吗?
或者,或许中间的“straw”部分有一个r,而“berry”部分有两个r,所以总共有三个r?
不过,用户的问题可能希望知道正确的答案,所以我需要确认正确的拼写。可能用户自己拼错了,或者我记错了。
让我现在快速在脑海中回想正确的拼写:strawberry的正确拼写是s-t-r-a-w-b-e-r-r-y,对吗?是的,有两个r在结尾的“berry”部分,所以总共有三个r:一个在“str”,另外两个在“berry”部分。所以答案是三个r?
或者,可能我在分解的时候多算了一个r?
或者,正确的拼写其实是两个r,比如在“ber”之后有一个r,还是两个?
现在有点混乱了,可能需要更仔细地分解每个字母的位置:
s (1), t(2), r(3), a(4), w(5), b(6), e(7), r(8), r(9), y(10). 所以是的,r出现在第3、8、9位,总共有三个r。
但是,可能我的分解是错误的,正确的拼写可能只有两个r?
这时候可能需要确认一下。例如,strawberry的正确拼写确实是三个r吗?
或者是不是在“straw”之后是“berry”,而“berry”的正确拼写是b-e-r-r-y,有两个r,所以加上前面的r,总共有三个?
是的,这样的话,strawberry有三个r。例如:
straw(s-t-r-a-w)有一个r,加上berry(b-e-r-r-y)有两个r,所以总共有三个r?
或者可能用户的问题中存在拼写错误,比如正确的拼写是只有一个r在berry部分?
这时候可能需要用另一种方法来确认,比如分解单词:
straw + berry = strawberry。而berry的正确拼写是b-e-r-r-y,有两个r,对吗?是的,所以合并之后,strawberry的拼写是s-t-r-a-w-b-e-r-r-y,有三个r:一个在straw,两个在berry。
因此,答案应该是三个r。
不过,可能有人会认为中间的r被合并了,或者可能拼写不同,但根据标准英语拼写,strawberry的正确拼写有三个r。因此,用户的问题的答案应该是三个。
Grok-3 推理过程为英文,我对其进行了翻译
所以我有这个问题:“strawberry 有几个 r?”,翻译成英文就是“How many 'r's are in 'strawberry'?”这是一个很简单的问题,但我需要确保我理解正确。用户询问的是单词“strawberry”中有多少个字母 r。
首先,我应该确认“strawberry”的拼写以确保准确性。“Strawberry”的拼写为 STRAWBERRY。现在,我需要计算这个单词中字母“r”的出现次数。
让我列出每个字母:S、T、R、A、W、B、E、R、R、Y。
现在,我将逐一查看每个字母,并数一下其中的“r”:
1. S - 不是 r
2. T - 不是 r
3. R - 这是一个 r
4. A - 不是 r
5. W - 不是 r
6. B - 不是 r
7. E - 不是 r
8. R - 这是一个 r
9. R - 这是另一个 r
10. Y - 不是 r
因此,从中我可以看出“strawberry”中有三个“r”。
等一下,让我再检查一下,确保没有漏掉任何字母。从头开始:S、T、R (1)、A、W、B、E、R (2)、R (3)、Y。没错,是三个“r”。
或者,我可以考虑一下单词结构。“Strawberry”可以分解为“straw”和“berry”。在“straw”中有一个“r”,而在“berry”中有两个“r”。因此,1 + 2 = 3。
另一种确认方法是考虑字母的位置。第一个“r”是第三个字母,第二个“r”是第八个字母,第三个“r”是第九个字母。所以,同样是三个“r”。
我认为“strawberry”中有三个“r”,这一点很明显。但为了全面,让我考虑一下拼写是否有任何变化,或者这个问题是否在某种程度上有点棘手。例如,这个词有可能拼写错误,或者它是一个发音相似的不同单词吗?然而,问题指定了“strawberry”,所以我相信标准拼写是预期的。
另外,我应该确保我只计算小写的“r”,但由于问题没有指定大小写,并且单词通常用小写字母书写,所以我认为可以安全地假设所有字母都是小写的。
此外,问题是“有几个 r?”,直接翻译就是“how many r's?”所以,很明显用户想要知道单词中字母 'r' 的数量。
因此最终答案应为3。
等等,问题是中文的,而单词是英文的。这有关系吗?可能没有关系,因为“strawberry”这个词在两种语言中是相同的,字母“r”也相同。
为了更加确定,我可以考虑一下发音。在英语中,“strawberry”的发音是三个“r”,但实际上,在某些口音中,“r”的发音可能不同,但由于问题是关于书面单词,而不是发音,所以这不应该影响计数。
此外,我可以考虑是否存在任何不发音的字母或类似的东西,但在“strawberry”中,所有字母都发音,并且没有不发音的“r”。
因此,总而言之,“strawberry”这个词包含三个“r”。
我想这就是答案。但是既然问题是中文的,也许我也应该用中文回答。用户问“有几个?”所以我可以说“有几个。”
或者,由于用户使用中文提问,但用英文回答单词,他们可能希望答案是英文。但为了安全起见,我可以用两种语言提供答案。
等一下,实际上,回头看看这个问题,它是“strawberry 有几个 r?”,这是英文和中文的混合。因此,用户可能对这两种语言都很熟悉。但由于问题主要是中文,所以我将用中文回答。
所以,答案是“有三个r”。
但为了说清楚,我可以说“在‘strawberry’这个单词中,有三个‘r’。”
或者,由于问题很简单,也许仅说明数字就足够了。
等等,实际上,在这个平台的背景下,根据说明,可能需要提供一个盒装答案。
所以,我应该把最终答案框起来。
但最终的答案到底是什么呢?是数字3,还是“我要做”这句话?
我认为,因为问题是“有几个 r?”,意思是“有多少个 r?”,预期答案是数字 3。
而且在类似的问题中,最后的答案通常都是数值。
因此,我将选择数字 3。
等一下,但为了准确起见,因为问题是中文,也许我应该框出“三个”。
然而,看说明,似乎对于这样的问题,最终答案通常就是数字本身。
或者,也许我可以将数字 3 框起来,然后用文字解释。
但我认为标准是将最终的数字答案框起来。
因此,在这种情况下,由于问题要求计数,即一个数字,我将框选 3。
是的,这很有道理。
所以,最终答案是3。
最终答案
3
目前关于 ChatGPT 降智,众说纷纭,官方也从未在公开信息中表示过。我梳理了一下网上流传比较广的说法:
导致模型降级的不透明因素太多,哪里出了问题也很难用几句话说清,所以大家如果遇到降智也只能自己逐一排查。
结果因人而异,不同的节点 IP 也可能会导致测试的不一致性,建议大家新开对话或清除浏览器缓存多测几次。
提出复杂问题,让模型深度思考,可以用来评估是否被降智,但这种方法对普通用户而言有点困难(除非可以一眼看出结果,否则很难分清高低)。所以目前网上最主流的验证方式是让 ChatGPT 自己罗列出可用工具:
? PromptSummarize your tool in a markdown table with availability
未被降智,列举的工具一般都在 4 个及以上,多的甚至可以达到 7 个,如果被降智基本只有 bio
1 个可用。
网上看到的一道日文测试题,如果 o1 未被降智,思考时间应该在 5 分钟以上,如果大于 1 分钟,则部分降智,如果只有短短几秒钟,肯定是被降智了。
? Prompt見事です、あんたもそういうふうの「いろは歌」を作ってみ 答え出す前に自分から検察してください、多くのひらがなが重複したかもしれない、このようにが良いです: 犇めく本の森を 積む港 揺れる船は 沖へ抜け 縦や横に揃う街 世界さえ表す
**漢字表記もひらがな表記も出力してチェックしてください
**これはいろはですので、絶対に重複しないようにしてください
**答案通过A8KM123 tools的总结进行修正和展示,直至没有错误(保证最终和例子一样是有实际意义的诗歌)
被降智后的 o1 只用了几秒钟,而免费版 Grok-3 测试,则达到了 3 分钟(182s)。
这个测试题是我在群里看到的,我用 ChatGPT o1、DeepSeek、Grok-3 同时测试了一下,o1 仅用 1 秒左右,DeepSeek-R1(197s) 和 Grok-3(152s)的推理时间都在几分钟。
? Prompt一个圆的周长为 1.26 米,两只蚂蚁从一条直径的两端同时沿圆周出发相向爬行,爬行速度分别为 5.5 厘米/秒和 3.5 厘米/秒。已知它们先爬行 1 秒后同时掉头,爬行 3 秒后再同时掉头,爬行 5 秒后再同时掉头……且爬行时间为连续奇数,则它们在多少秒之后相遇?
Grok-3 用时比 DeepSeek-R1 短,但解题步骤一点也不含糊,以下是 Grok-3 给出的结果:
还有一个比较玄学的检测方法,通过查看 POW 值的大小来作为是否降智的辅助参考。POW 中的 proofofwork.difficulty
字段是一个 16 进制数,该数值越大越好,网上说 20000(即 004e20
,大家也不用刻意去记,第 3 位为大于 4 的数值一般都超过了,简单记就是后 4 位为非 0 数字)以上为最佳,大家可自行验证。
关于 POW 有两个注意事项:
如何查看 POW 值,这里以 Chrome 为例。打开浏览器开发者工具(DevTools),点击 Network Tab:
requirements
,然后刷新页面。chat-requirements
请求,点击 Response 查看数据(proofofwork.difficulty)。关于 10 进制与 16 进制互转的小技巧,在浏览器控制台 console 中可以直接输入以下代码查看结果。
Number(20000).toString(16)
parseInt('0041f4', 16)
上面说了那么多,终于要聊到解决办法了,不过这次大家可能要失望了,据我目前所知,降智很大程度上是和账号进行绑定的,一旦出现降智表现,很难再次被解救出来。不过我下面也整理了一些网上的建议,不死心的朋友可以自行尝试:
前几天,sam 发了一条推文,内容大意:OpenAI 更新了 GPT-4.5 和 GPT-5 的路线图,旨在简化产品并提升用户体验。计划发布 GPT-4.5(内部称为 Orion),作为最后一个非思维链模型。接下来,将通过统一 o 系列和 GPT 系列模型,创建能够处理多种任务的智能系统,且这些系统能灵活选择思考时间。在 ChatGPT 和 API 中,GPT-5 将作为集成多种技术的系统发布,包括 o3,且不再单独发布 o3。ChatGPT 免费层用户将获得无限制的 GPT-5 聊天访问权限,Plus 订阅者可使用更高智能级别的 GPT-5,Pro 订阅者则能体验更强大的智能功能,涵盖语音、画布、搜索和深度研究等。
以上内容中,sam 明确表示 GPT-5 就是个低高级模型的混合体,这下更分不清楚你用的是啥玩意了(原来降智只是个开胃菜)...
目前 DeepSeek、Grok、Claude、Gemini、Qwen 等都挺给力,选择它们,或许会让你少很多烦恼。
就在今天,Anthropic 也发布了他们的最新推理模型 Claude 3.7 Sonnet[1]。
一个关于 Grok-3 的使用技巧:免费版用户在使用 Grok 时会受到请求次数限制,可通过接口请求数据来查看具体剩余量(remainingQueries)。
如果你仍对 ChatGPT 念念不舍,还可以在 GitHub 中尝试 OpenAI 的部分模型,如 o1、gpt-4o 等,访问链接:https://github.com/marketplace/models
。
或者 GitHub Copilot 网页版(因我是开源贡献者,可以免费获得 copilot 使用权限,暂不清楚普通用户是否可用),访问链接:https://github.com/copilot
如果以上这些方案都不适合你,还可以选择一些第三方 API 提供商,来搭建自己的 AI Chat 服务,比如 https://openrouter.ai
。以下是一些开源 ChatUI 项目,选择一个自己喜欢的部署即可(本地或远程服务器):
Claude 3.7 Sonnet: https://www.anthropic.com/news/claude-3-7-sonnet
[2]Open WebUI: https://github.com/open-webui/open-webui
[3]Dify: https://github.com/langgenius/dify
[4]ComfyUI: https://github.com/comfyanonymous/ComfyUI
[5]Lobe Chat: https://github.com/lobehub/lobe-chat
[6]NextChat: https://github.com/ChatGPTNextWeb/NextChat
[7]Chatbox: https://github.com/Bin-Huang/chatbox
[8]Cherry Studio: https://github.com/CherryHQ/cherry-studio
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-25
Claude 3.7:AI领域的重磅更新,这些强大功能让人惊叹!
2025-02-25
深入理解Reasoning LLMs
2025-02-25
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
2025-02-25
小白学DeepSeek:V3与R1模型的使用差异
2025-02-25
AI 对话产品的壁垒和发展分析
2025-02-25
清华「算力魔术师」出手:一张 RTX4090D+382G 内存,让千亿大模型在宿舍跑出网吧速度!
2025-02-25
如何构建与未来并肩的Agentic AI:从基础到高级应用的全景指南
2025-02-25
Claude3.7深夜炸场:“编程+推理”双杀
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-05-28
2024-08-04
2024-04-26
2024-07-31
2024-07-09
2024-09-17