我要投稿

老板格局不大，但编码能力不错的Claude 3.7正式发布

发布日期：2025-03-12 08:09:32 浏览次数： 1760 作者：毅恒的小酒馆

谁是真正的王者？

北京时间凌晨三点，老板格局不大，但编码能力不错的Anthropic扔出AI领域的重磅炸弹——正式发布全球首个混合推理大模型Claude 3.7 Sonnet，

同步推出的还有让开发者沸腾的智能编码工具Claude Code（可能是看Cursor的营收眼红了）

这场发布让全球各家大模型公司继续圈，先列一下重点。

One More Thing

主观重点

1、Claude 3.7 是首个结合一般大语言模型和推理模型功能的混合推理模型。

注意看??下面的交互，选择标准模式提供快速响应，选择扩展思考模式实现逐步推理。

只是我觉得这个交互有点傻，完全可以直接用DeepSeek R1的交互方式，让用户多选择一步，就浪费用户多一秒的生命，不如直接像OpenAI、Grok3直接借鉴。

2、业内都知Claude 3.5一直是全球开发者的首选，包括风靡全球的Cursor也是基于Claude 3.5的编码能力

这次Anthropic 推出了用于智能编码的命令行工具 Claude Code。

它目前作为有限的研究预览版本使用，使开发人员能够直接从他们的终端将大量工程任务委托给 Claude。

我自己的猜测，估计是看到Cursor的日活和收入，眼红了，不如我自己做一个智能编码工具吧

至于最终能不能影响Cursor，我们还要看Claude Code能力如何，不过看官网文档介绍评测数据，Claude可能一心往AI编码方向发展了。

同时我也在X上第一时间看到Cursor表忠心，请看下图：

3、通过 API 访问可以控制模型思考时长

虽然R1很火，但其实很多场景，R1是思考过度的，特别是在B端场景应用，不能控制思维链的过程，就会导致非常慢，用户体验不好，且成本非常高，

Claude 3.7考虑到不同场景下速度、成本和精确度的不同需求，开发者可以设置一个“thinking budget”，来控制模型思考的上限，这个很有意思，

当通过 API 使用 Claude 3.7 Sonnet 时，用户还可以控制思考预算。

你可以告诉 Claude 思考不超过 N 个 token。对于任何 N 值，其输出限制为 128K 个 token。这允许用户在速度（和成本）和答案质量之间进行权衡。

期待进一步实测，前提还是要看模型底层推理能力，推理能力不行，就是屎上雕花。

3、一些其他

在开发自家的推理模型时，Anthropic 对数学和计算机科学竞赛问题的优化较少，而是将重点转向更能反映企业实际使用 LLM 方式的现实任务。

我们来看下 Claude 3.7 Sonnet 的基准测试结果，其中在 SWE-bench Verified（评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集）上，Claude 3.7 Sonnet 实现了 SOTA 性能，远远超过了 Claude 3.5 Sonnet、OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1。

在 TAU-bench（评估 LLM 在复杂真实场景中用户与工具交互能力的基准测试平台）上，Claude 3.7 Sonnet 同样实现了 SOTA 性能，超过了 Claude 3.5 Sonnet 和 OpenAI 的 o1。

Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力和智能编码方面表现出色，扩展思考在数学和科学方面实现了显著提升，但在一些方面依然不及 OpenAI 的 o3-mini (high)、Grok-3 Beta 等。

Claude 3.7 已经全量上线可以体验了，考虑到老板格局不大，如果你的 Claude 付费账户没有被封禁的话，另外你可以通过亚马逊的平台调用API使用。

作为个人用户， Cursor、Monica 等应该也会马上接入。

下面是官方基于 extended thinking mode 向用户解释三门问题的示例。

Anthropic的发展规划

下图所示，2025 的对应了 OpenAI 所说的 L3 智能体（不仅可以思考，还能采取行动的 AI 系统），2027 的相当于 L5 组织者（可以完成组织工作的 AI）

所以谁能到最先到L5，让我们拭目以待。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-25

OpenAI 白送 200 美元的深度研究功能？实测后发现这个「阉割版」不如不用

2025-04-25

为什么一定要做Agent智能体？

2025-04-25

哇！首个MCPBench来了，MCP竟然不比Function Calls更有优势？ | 最新

2025-04-25

医疗大模型案例分析（一）：Google Med-PaLM

2025-04-25

vLLM+Qwen-32B+Open Web UI构建本地私有大模型

2025-04-25

AI产品经理思考MCP（3）：MCP的未来可能

2025-04-25

AI产品经理思考MCP协议（2）：标准化的必要性

2025-04-25

AI产品经理思考MCP协议（1）：预见MCP——我的“万能库”与标准化之路

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

2025-04-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部