AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


ChatGPT 降智:终极解决方案

发布日期:2025-02-25 21:09:16 浏览次数: 1518 来源:浮之静
推荐语

深入解析ChatGPT的不足之处,对比不同AI模型的推理效率和准确性。

核心内容:
1. ChatGPT处理复杂问题时的局限性和隐性降智现象
2. Grok-3与DeepSeek-R1在处理相同问题时的效率和准确性对比
3. 不同AI模型推理过程的详细解析

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

OpenAI 不值得,完全就是一个弱智(4o 不能识图或生图,o1 不推理)。连续开了近两年的 ChatGPT Plus,已被我退订了。隐性降智真难绷,在处理复杂问题时随机给你个弱智结果,让人去验证太心累了...

相比之下,免费版 Grok-3 就靠谱多了,是时候换个模型服务订阅了!

ChatGPT 降智

ChatGPT 降智的问题在网上已经被讨论很久了,我之前也没写文章聊聊。趁现在我的 ChatGPT 也降智了,就来详细聊聊这个话题。事情起因是这样的,我最近使用 o1 模型提问,很多问题都在几秒内给出回答,而且推理的过程十分简单,就感觉应该是被降智了。然后我用之前 OpenAI 自己提问过的一个问题进行测试,给出的结果更是离谱,反观免费版 Grok-3 ,那是真靠谱。

Prompt: strawberry 有几个 r?

相同的问题,我也用 DeepSeek 测试了一下,虽然给出了正确答案,但耗时有点久(91s),这么比对下来似乎 Grok-3(13s)更高效,最有意思的是,Grok-3 在思考过程中认为结果 3 应该用框框起来,结果真搞了框。

DeepSeek-R1 与 Grok-3 似乎使用了不同的推理策略,单从本次测试结果来看,我个人更倾向于 Grok-3 的推理过程。下面我粘贴了这两个模型的推理:

DeepSeek 推理过程
嗯,用户问的是“strawberry 有几个 r?”,首先我要确定这个词的正确拼写。strawberry这个词有时候可能会有拼写错误,比如是否双写某个字母。不过我记得正确的拼写应该是s-t-r-a-w-b-e-r-r-y。让我再仔细检查一下。

先分解一下字母:s, t, r, a, w, b, e, r, r, y。对,中间有两个r。在单词中间,也就是在“b”之后,有两个连续的r,对吗?比如“strawb”之后是“erry”部分,所以应该是e-r-r-y,所以这里有两个r。那么整个单词中有三个r吗?或者我哪里数错了?

等一下,让我再仔细数一遍。分解每个字母:

1. S

2. T

3. R

4. A

5. W

6. B

7. E

8. R

9. R

10. Y

所以从字母顺序来看,第三个字母是R,然后第八和第九个字母都是R。所以总共有三个R?还是我在分解的时候出错了?

不对,可能我的分解有误。正确的拼写应该是s-t-r-a-w-b-e-r-r-y,对吗?让我再确认一下。正确的拼写是strawberry,中间有两个r,在“ber”之后还有一个r,所以是berr?比如,应该是b-e-r-r-y,所以这里有双r,对吗?

这样的话,整个单词中有两个r:第一个在开头部分str中的r,然后后面有两个r在berry部分?或者后面的berry部分有两个r,而前面还有一个r?

等等,现在可能混淆了。让我再重新拼写一遍:

s-t-r-a-w-b-e-r-r-y。是的,分解后:

s (1), t(2), r(3), a(4), w(5), b(6), e(7), r(8), r(9), y(10)。所以有三个r吗?字母3、8、9都是r?那总共有三个r?

但是这可能不对,因为正确的拼写应该是strawberry,中间可能只有一个r在berry部分。可能我记错了,正确的拼写是s-t-r-a-w-b-e-r-r-y,是的,有两个r在结尾部分,所以总共有三个r?或者是不是这样?

等一下,可能我在这里搞错了。正确的拼写其实是s-t-r-a-w-b-e-r-r-y,也就是说,在“berry”部分有两个r,而前面的“straw”中的r是一个,所以总共是三个r?但根据我的记忆,正确的拼写应该是只有一个r在“straw”部分,然后在“berry”部分有两个r?

或者是不是前面的“straw”没有r?比如,straw的拼写是s-t-r-a-w,所以是的,有一个r。然后berry是b-e-r-r-y,有两个r。所以总共有三个r:一个在straw,两个在berry?

如果是这样的话,答案应该是三个r。但是这可能吗?让我再查证一下,因为可能我的记忆有误。比如,strawberry的正确拼写确实是有两个r吗?

或者,或许中间的“straw”部分有一个r,而“berry”部分有两个r,所以总共有三个r?

不过,用户的问题可能希望知道正确的答案,所以我需要确认正确的拼写。可能用户自己拼错了,或者我记错了。

让我现在快速在脑海中回想正确的拼写:strawberry的正确拼写是s-t-r-a-w-b-e-r-r-y,对吗?是的,有两个r在结尾的“berry”部分,所以总共有三个r:一个在“str”,另外两个在“berry”部分。所以答案是三个r?

或者,可能我在分解的时候多算了一个r?

或者,正确的拼写其实是两个r,比如在“ber”之后有一个r,还是两个?

现在有点混乱了,可能需要更仔细地分解每个字母的位置:

s (1), t(2), r(3), a(4), w(5), b(6), e(7), r(8), r(9), y(10). 所以是的,r出现在第3、8、9位,总共有三个r。

但是,可能我的分解是错误的,正确的拼写可能只有两个r?

这时候可能需要确认一下。例如,strawberry的正确拼写确实是三个r吗?

或者是不是在“straw”之后是“berry”,而“berry”的正确拼写是b-e-r-r-y,有两个r,所以加上前面的r,总共有三个?

是的,这样的话,strawberry有三个r。例如:

straw(s-t-r-a-w)有一个r,加上berry(b-e-r-r-y)有两个r,所以总共有三个r?

或者可能用户的问题中存在拼写错误,比如正确的拼写是只有一个r在berry部分?

这时候可能需要用另一种方法来确认,比如分解单词:

straw + berry = strawberry。而berry的正确拼写是b-e-r-r-y,有两个r,对吗?是的,所以合并之后,strawberry的拼写是s-t-r-a-w-b-e-r-r-y,有三个r:一个在straw,两个在berry。

因此,答案应该是三个r。

不过,可能有人会认为中间的r被合并了,或者可能拼写不同,但根据标准英语拼写,strawberry的正确拼写有三个r。因此,用户的问题的答案应该是三个。
Grok-3 推理过程为英文,我对其进行了翻译
所以我有这个问题:“strawberry 有几个 r?”,翻译成英文就是“How many 'r's are in 'strawberry'?”这是一个很简单的问题,但我需要确保我理解正确。用户询问的是单词“strawberry”中有多少个字母 r。

首先,我应该确认“strawberry”的拼写以确保准确性。“Strawberry”的拼写为 STRAWBERRY。现在,我需要计算这个单词中字母“r”的出现次数。

让我列出每个字母:S、T、R、A、W、B、E、R、R、Y。

现在,我将逐一查看每个字母,并数一下其中的“r”:

1. S - 不是 r
2. T - 不是 r
3. R - 这是一个 r
4. A - 不是 r
5. W - 不是 r
6. B - 不是 r
7. E - 不是 r
8. R - 这是一个 r
9. R - 这是另一个 r
10. Y - 不是 r

因此,从中我可以看出“strawberry”中有三个“r”。

等一下,让我再检查一下,确保没有漏掉任何字母。从头开始:S、T、R (1)、A、W、B、E、R (2)、R (3)、Y。没错,是三个“r”。

或者,我可以考虑一下单词结构。“Strawberry”可以分解为“straw”和“berry”。在“straw”中有一个“r”,而在“berry”中有两个“r”。因此,1 + 2 = 3。

另一种确认方法是考虑字母的位置。第一个“r”是第三个字母,第二个“r”是第八个字母,第三个“r”是第九个字母。所以,同样是三个“r”。

我认为“strawberry”中有三个“r”,这一点很明显。但为了全面,让我考虑一下拼写是否有任何变化,或者这个问题是否在某种程度上有点棘手。例如,这个词有可能拼写错误,或者它是一个发音相似的不同单词吗?然而,问题指定了“strawberry”,所以我相信标准拼写是预期的。

另外,我应该确保我只计算小写的“r”,但由于问题没有指定大小写,并且单词通常用小写字母书写,所以我认为可以安全地假设所有字母都是小写的。

此外,问题是“有几个 r?”,直接翻译就是“how many r's?”所以,很明显用户想要知道单词中字母 'r' 的数量。

因此最终答案应为3。

等等,问题是中文的,而单词是英文的。这有关系吗?可能没有关系,因为“strawberry”这个词在两种语言中是相同的,字母“r”也相同。

为了更加确定,我可以考虑一下发音。在英语中,“strawberry”的发音是三个“r”,但实际上,在某些口音中,“r”的发音可能不同,但由于问题是关于书面单词,而不是发音,所以这不应该影响计数。

此外,我可以考虑是否存在任何不发音的字母或类似的东西,但在“strawberry”中,所有字母都发音,并且没有不发音的“r”。

因此,总而言之,“strawberry”这个词包含三个“r”。

我想这就是答案。但是既然问题是中文的,也许我也应该用中文回答。用户问“有几个?”所以我可以说“有几个。”

或者,由于用户使用中文提问,但用英文回答单词,他们可能希望答案是英文。但为了安全起见,我可以用两种语言提供答案。

等一下,实际上,回头看看这个问题,它是“strawberry 有几个 r?”,这是英文和中文的混合。因此,用户可能对这两种语言都很熟悉。但由于问题主要是中文,所以我将用中文回答。

所以,答案是“有三个r”。

但为了说清楚,我可以说“在‘strawberry’这个单词中,有三个‘r’。”

或者,由于问题很简单,也许仅说明数字就足够了。

等等,实际上,在这个平台的背景下,根据说明,可能需要提供一个盒装答案。

所以,我应该把最终答案框起来。

但最终的答案到底是什么呢?是数字3,还是“我要做”这句话?

我认为,因为问题是“有几个 r?”,意思是“有多少个 r?”,预期答案是数字 3。

而且在类似的问题中,最后的答案通常都是数值。

因此,我将选择数字 3。

等一下,但为了准确起见,因为问题是中文,也许我应该框出“三个”。

然而,看说明,似乎对于这样的问题,最终答案通常就是数字本身。

或者,也许我可以将数字 3 框起来,然后用文字解释。

但我认为标准是将最终的数字答案框起来。

因此,在这种情况下,由于问题要求计数,即一个数字,我将框选 3。

是的,这很有道理。

所以,最终答案是3。

最终答案

3

为何会降智?

目前关于 ChatGPT 降智,众说纷纭,官方也从未在公开信息中表示过。我梳理了一下网上流传比较广的说法:

  • 节约算力:面对海量的算力需求(训练新模型,支持更多免费用户等),而对“部分(解释权在 OpenAI)”通过共享账号或非官方接口(将 chatgpt.com 网页转为 api 调用)的用户进行了一系列限制(降智或封号),来降低账户模型的能力(常见表现:gpt-4o 无法生成或理解图片,o1 对任何问题都不再进行推理)。
  • IP 污染或误判:国内用户主要通过代理软件来访问 ChatGPT,存在多个用户共享一个 IP 地址。共享 IP 会被 OpenAI 误判为滥用或存在安全风险(如:刚进入网页时的机器人验证),从而触发降权机制。
  • 成本控制:o1 之类的高级模型运行成本很高,尽管 Plus 用户有调用总量限制,但过度使用也可能会触发隐形的 “POW(proofofwork, 工作量证明)机制”。使用量越大,账号被降智的可能越大(如:同样的问题,之前使用 o1 推理几分钟,现在推理只有几秒或十几秒,推理时间大幅缩短)。
  • 模型降级:更高级的模型会降级为低级模型,比如 o1 降为 gpt-4o,4o 不再支持文件处理、图像生成、代码运行等。能力被大幅度阉割,毫无智能可言...
  • ...

导致模型降级的不透明因素太多,哪里出了问题也很难用几句话说清,所以大家如果遇到降智也只能自己逐一排查。

如何验证降智?

结果因人而异,不同的节点 IP 也可能会导致测试的不一致性,建议大家新开对话或清除浏览器缓存多测几次。

测试一

提出复杂问题,让模型深度思考,可以用来评估是否被降智,但这种方法对普通用户而言有点困难(除非可以一眼看出结果,否则很难分清高低)。所以目前网上最主流的验证方式是让 ChatGPT 自己罗列出可用工具:

? Prompt

Summarize your tool in a markdown table with availability

未被降智,列举的工具一般都在 4 个及以上,多的甚至可以达到 7 个,如果被降智基本只有 bio 1 个可用。

测试二

网上看到的一道日文测试题,如果 o1 未被降智,思考时间应该在 5 分钟以上,如果大于 1 分钟,则部分降智,如果只有短短几秒钟,肯定是被降智了。

? Prompt

見事です、あんたもそういうふうの「いろは歌」を作ってみ 答え出す前に自分から検察してください、多くのひらがなが重複したかもしれない、このようにが良いです: 犇めく本の森を 積む港 揺れる船は 沖へ抜け 縦や横に揃う街 世界さえ表す

**漢字表記もひらがな表記も出力してチェックしてください

**これはいろはですので、絶対に重複しないようにしてください

**答案通过A8KM123 tools的总结进行修正和展示,直至没有错误(保证最终和例子一样是有实际意义的诗歌)

被降智后的 o1 只用了几秒钟,而免费版 Grok-3 测试,则达到了 3 分钟(182s)。

测试三

这个测试题是我在群里看到的,我用 ChatGPT o1、DeepSeek、Grok-3 同时测试了一下,o1 仅用 1 秒左右,DeepSeek-R1(197s) 和 Grok-3(152s)的推理时间都在几分钟。

? Prompt

一个圆的周长为 1.26 米,两只蚂蚁从一条直径的两端同时沿圆周出发相向爬行,爬行速度分别为 5.5 厘米/秒和 3.5 厘米/秒。已知它们先爬行 1 秒后同时掉头,爬行 3 秒后再同时掉头,爬行 5 秒后再同时掉头……且爬行时间为连续奇数,则它们在多少秒之后相遇?

Grok-3 用时比 DeepSeek-R1 短,但解题步骤一点也不含糊,以下是 Grok-3 给出的结果:

测试四

还有一个比较玄学的检测方法,通过查看 POW 值的大小来作为是否降智的辅助参考。POW 中的 proofofwork.difficulty 字段是一个 16 进制数,该数值越大越好,网上说 20000(即 004e20,大家也不用刻意去记,第 3 位为大于 4 的数值一般都超过了,简单记就是后 4 位为非 0 数字)以上为最佳,大家可自行验证。

关于 POW 有两个注意事项:

  • 切换节点 IP 会影响 POW 值,这里牵扯的因素就比较复杂了。目前尚不清楚 OpenAI 是针对地区进行算力限制,还是 IP 多次共享被 OpenAI 识别而降权。
  • POW 值随个人模型调用次数逐步降低,限制个人总算力(该说法也来自于网络,不清楚真实性)。

如何查看 POW 值,这里以 Chrome 为例。打开浏览器开发者工具(DevTools),点击 Network Tab:

  1. 进入 ChatGPT 任意一个对话记录页面。
  2. 在请求过滤条件中输入 requirements,然后刷新页面。
  3. 点击过滤出的 chat-requirements 请求,点击 Response 查看数据(proofofwork.difficulty)。

关于 10 进制与 16 进制互转的小技巧,在浏览器控制台 console 中可以直接输入以下代码查看结果。

Number(20000).toString(16)
parseInt('0041f4'16)

降智解决方案

上面说了那么多,终于要聊到解决办法了,不过这次大家可能要失望了,据我目前所知,降智很大程度上是和账号进行绑定的,一旦出现降智表现,很难再次被解救出来。不过我下面也整理了一些网上的建议,不死心的朋友可以自行尝试:

  • 保证干净的网络环境,独立 IP 之类的,这里就不展开了,大家自行搜索。
  • 清除浏览器缓存以及 DNS,或许可以缓解部分降智问题。
  • 中文是封号降智的重灾区,尽量不要使用中文进行提问(这个就更玄学了,愿意尝试的朋友可以试试,就当学习英语了)。
  • 如网页版出现降智,还可尝试使用手机应用和桌面客户端,因它们请求的接口存在差异,或许还未完全沦陷。
  • 如果以上方案仍无法缓解,建议删号重新注册(注册和使用新账号时,一定保证网络环境干净,时刻注意各种操作,避免再次降智)。
  • 如果重新注册仍无法缓解,建议远离 OpenAI,寻找新的替代品。

GPT 爆论

前几天,sam 发了一条推文,内容大意:OpenAI 更新了 GPT-4.5 和 GPT-5 的路线图,旨在简化产品并提升用户体验。计划发布 GPT-4.5(内部称为 Orion),作为最后一个非思维链模型。接下来,将通过统一 o 系列和 GPT 系列模型,创建能够处理多种任务的智能系统,且这些系统能灵活选择思考时间。在 ChatGPT 和 API 中,GPT-5 将作为集成多种技术的系统发布,包括 o3,且不再单独发布 o3。ChatGPT 免费层用户将获得无限制的 GPT-5 聊天访问权限,Plus 订阅者可使用更高智能级别的 GPT-5,Pro 订阅者则能体验更强大的智能功能,涵盖语音、画布、搜索和深度研究等。

以上内容中,sam 明确表示 GPT-5 就是个低高级模型的混合体,这下更分不清楚你用的是啥玩意了(原来降智只是个开胃菜)...

ChatGPT 替代品

目前 DeepSeek、Grok、Claude、Gemini、Qwen 等都挺给力,选择它们,或许会让你少很多烦恼。

就在今天,Anthropic 也发布了他们的最新推理模型 Claude 3.7 Sonnet[1]

一个关于 Grok-3 的使用技巧:免费版用户在使用 Grok 时会受到请求次数限制,可通过接口请求数据来查看具体剩余量(remainingQueries)。

曲线救国

如果你仍对 ChatGPT 念念不舍,还可以在 GitHub 中尝试 OpenAI 的部分模型,如 o1、gpt-4o 等,访问链接:https://github.com/marketplace/models

或者 GitHub Copilot 网页版(因我是开源贡献者,可以免费获得 copilot 使用权限,暂不清楚普通用户是否可用),访问链接:https://github.com/copilot

如果以上这些方案都不适合你,还可以选择一些第三方 API 提供商,来搭建自己的 AI Chat 服务,比如 https://openrouter.ai。以下是一些开源 ChatUI 项目,选择一个自己喜欢的部署即可(本地或远程服务器):

  • Open WebUI[2]:是一个可扩展、功能丰富且用户友好的自托管 AI 平台,旨在完全离线运行。支持各种 LLM 运行器(如 Ollama)和与 OpenAI 兼容的 API,并内置 RAG 推理引擎,使其成为强大的 AI 部署解决方案(功能强大,但设置也相对复杂,值得深入研究)。
  • Dify[3]:是一个开源的 LLM 应用开发平台。其直观的界面结合了 AI 工作流、RAG 管道、Agent、模型管理、可观测性功能等,让你可以快速从原型到生产(喜欢可视化工作流的朋友值得拥有,类似于 ComfyUI[4])。
  • 其他:Lobe Chat[5]NextChat[6]Chatbox[7]Cherry Studio[8] ...

References

[1]

Claude 3.7 Sonnet: https://www.anthropic.com/news/claude-3-7-sonnet

[2]

Open WebUI: https://github.com/open-webui/open-webui

[3]

Dify: https://github.com/langgenius/dify

[4]

ComfyUI: https://github.com/comfyanonymous/ComfyUI

[5]

Lobe Chat: https://github.com/lobehub/lobe-chat

[6]

NextChat: https://github.com/ChatGPTNextWeb/NextChat

[7]

Chatbox: https://github.com/Bin-Huang/chatbox

[8]

Cherry Studio: https://github.com/CherryHQ/cherry-studio

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询