我要投稿

Claude 悄悄进化：全新“思考”工具解锁，AI 也能像人一样“停下来想想”了

发布日期：2025-03-25 04:08:51 浏览次数： 1601 作者：AI寒武纪

Claude 模型搞了个新玩意儿，叫 “think tool”（思考工具）

简单来说，这个工具就像给 Claude 加了个 “暂停键” 和 “草稿纸”,可以在复杂任务期间为结构化思考创造专用空间

这和之前他们说的 “extended thinking”（扩展思考）还不一样。“扩展思考” 是模型在开始生成答案前的预先思考和迭代。而 “think tool” 是在生成答案过程中，让 Claude 可以随时停下来，审视已有的信息，判断是否需要进一步分析

这个 “思考” 有啥用？

Anthropic 官方说，这招特别适合 复杂工具调用 的场景。比如：

信息过载时： Claude 需要处理多个工具的返回结果，信息量太大容易懵， “思考工具” 可以帮它慢下来，仔细分析

规则繁琐时： 面对复杂的政策或指南，Claude 需要逐条核对，确保操作合规，“思考工具” 可以辅助它进行策略梳理

步步为营时： 在多步骤任务中，每一步都建立在前一步的基础上，一旦出错代价很高，“思考工具” 可以帮助 Claude 在关键节点停下来，评估风险

技术细节：JSON 配置，简单易用

Anthropic 还贴心地给出了 “think tool” 的 JSON 配置示例，开发者可以轻松集成到自己的应用中。配置非常简洁，核心就是定义工具的名称、描述和输入参数（一个名为 “thought” 的字符串）

{
  "name":"think",
"description":"Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.",
"input_schema":{
    "type":"object",
    "properties":{
      "thought":{
        "type":"string",
        "description":"A thought to think about."
      }
    },
    "required":["thought"]
}
}

效果实测：性能提升显著

为了验证 “think tool” 的效果，Anthropic 用了 T-Bench 和 SWE-Bench 两个基准测试。

T-Bench (客户服务场景): 在模拟客户服务对话中，“think tool” 配合优化后的 prompt，在 Airline 领域的 pass@1 指标上提升了 54%！ Retail 领域也有明显提升

SWE-Bench (软件工程场景): 在软件工程任务中，加入 “think tool” 后，性能平均提升了 1.6%

何时用，何时不用

“think tool” 虽然好用，但也不是万能药。Anthropic 也给出了使用建议：

推荐使用场景：

• 工具输出分析
• 政策合规环境
• 连续决策任务

不推荐使用场景：

• 非连续工具调用
• 简单指令跟随

写在最后

研究表明，“思考”工具可以显著提高 Claude 3.7 Sonnet 在执行需要在长链工具调用中遵守政策和推理的复杂任务时的性能。 “思考”并不是一个万能的解决方案，但它为正确的用例提供了实质性的好处，而且实现复杂性极低

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-19

Exa：给 AI Agent 的 “Bing API”

2025-04-19

Chrome过时了，AI Agent需要自己的浏览器。

2025-04-19

n8n + mcp王炸组合：5个节点轻松搭建一个AI工作流

2025-04-18

火山引擎OS Agent解决方案、豆包1.5·UI-TARS模型发布

2025-04-18

前沿导读 | 基于大模型智能体的出行行为模拟

2025-04-18

大概念模型（Large Concept Models）会取代提示工程吗？

2025-04-18

AI 重要概念科普与热门技术解析

2025-04-18

我对于AI领域商业模式的思考

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

大概念模型（Large Concept Models）会取代提示工程吗？

2025-04-18

LLM中的Token和Embedding到底是啥？

2025-04-16

探秘 LLM Agents：ReAct 框架藏着哪些惊喜？

2025-04-13

MCP、Function Calling 有什么区别？与 AI Agent 有什么关系？

2025-04-13

有了MCP，还需要深入研究Agent吗？

2025-04-13

大模型备案详解：哪些企业需要备案？如何高效准备？

2025-04-12

一夜之间，所有AI都会“说普通话”！谷歌A2A协议到底有多猛？

2025-04-12

谁是MCP 的 AI 好搭档？

2025-04-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部