AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


老板格局不大,但编码能力不错的Claude 3.7正式发布

发布日期:2025-03-12 08:09:32 浏览次数: 1564 来源:毅恒的小酒馆
推荐语

AI领域又一突破,Anthropic发布全球首个混合推理大模型Claude 3.7,引领智能编码新趋势。

核心内容:
1. Claude 3.7:全球首个混合推理大模型,结合一般大语言模型和推理模型功能
2. Claude Code:基于Claude 3.5的智能编码工具,开发者的新选择
3. 通过API访问控制模型思考时长,兼顾速度、成本和精确度

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
谁是真正的王者?

北京时间凌晨三点,老板格局不大,但编码能力不错的Anthropic扔出AI领域的重磅炸弹——正式发布全球首个混合推理大模型Claude 3.7 Sonnet,

同步推出的还有让开发者沸腾的智能编码工具Claude Code(可能是看Cursor的营收眼红了

这场发布让全球各家大模型公司继续圈,先列一下重点。

One More Thing

主观重点


1、Claude 3.7 是首个结合一般大语言模型和推理模型功能的混合推理模型。

注意看??下面的交互,选择标准模式提供快速响应,选择扩展思考模式实现逐步推理。

只是我觉得这个交互有点傻,完全可以直接用DeepSeek R1的交互方式,让用户多选择一步,就浪费用户多一秒的生命,不如直接像OpenAI、Grok3直接借鉴。

2、业内都知Claude 3.5一直是全球开发者的首选,包括风靡全球的Cursor也是基于Claude 3.5的编码能力

这次Anthropic 推出了用于智能编码的命令行工具 Claude Code。

它目前作为有限的研究预览版本使用,使开发人员能够直接从他们的终端将大量工程任务委托给 Claude。

我自己的猜测,估计是看到Cursor的日活和收入,眼红了,不如我自己做一个智能编码工具吧

至于最终能不能影响Cursor,我们还要看Claude Code能力如何,不过看官网文档介绍评测数据,Claude可能一心往AI编码方向发展了。
同时我也在X上第一时间看到Cursor表忠心,请看下图:

3、通过 API 访问可以控制模型思考时长

虽然R1很火,但其实很多场景,R1是思考过度的,特别是在B端场景应用,不能控制思维链的过程,就会导致非常慢,用户体验不好,且成本非常高,

Claude 3.7考虑到不同场景下速度、成本和精确度的不同需求,开发者可以设置一个“thinking budget”,来控制模型思考的上限,这个很有意思,

当通过 API 使用 Claude 3.7 Sonnet 时,用户还可以控制思考预算。

你可以告诉 Claude 思考不超过 N 个 token。对于任何 N 值,其输出限制为 128K 个 token。这允许用户在速度(和成本)和答案质量之间进行权衡。

期待进一步实测,前提还是要看模型底层推理能力,推理能力不行,就是屎上雕花。

3、一些其他

在开发自家的推理模型时,Anthropic 对数学和计算机科学竞赛问题的优化较少,而是将重点转向更能反映企业实际使用 LLM 方式的现实任务

我们来看下 Claude 3.7 Sonnet 的基准测试结果,其中在 SWE-bench Verified(评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集)上,Claude 3.7 Sonnet 实现了 SOTA 性能,远远超过了 Claude 3.5 Sonnet、OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1

图片

在 TAU-bench(评估 LLM 在复杂真实场景中用户与工具交互能力的基准测试平台)上,Claude 3.7 Sonnet 同样实现了 SOTA 性能,超过了 Claude 3.5 Sonnet 和 OpenAI 的 o1。

图片

Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力和智能编码方面表现出色,扩展思考在数学和科学方面实现了显著提升,但在一些方面依然不及 OpenAI 的 o3-mini (high)、Grok-3 Beta 等。

图片
Claude 3.7 已经全量上线可以体验了,考虑到老板格局不大,如果你的 Claude 付费账户没有被封禁的话,另外你可以通过亚马逊的平台调用API使用。

作为个人用户, Cursor、Monica 等应该也会马上接入。

下面是官方基于 extended thinking mode 向用户解释三门问题的示例。

Anthropic的发展规划

下图所示,2025 的对应了 OpenAI 所说的 L3 智能体(不仅可以思考,还能采取行动的 AI 系统),2027 的相当于 L5 组织者(可以完成组织工作的 AI)

所以谁能到最先到L5,让我们拭目以待。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询