AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Claude 3.7 Sonnet一战封神,画骑车鹈鹕、一键生成贪吃蛇,全网就它行

发布日期:2025-02-26 19:08:41 浏览次数: 1554 来源:AI好好用
推荐语

AI技术革命新突破,Claude 3.7 Sonnet引领混合推理模型新纪元。

核心内容:
1. Claude 3.7 Sonnet混合推理模型的创新特点
2. Claude 3.7 Sonnet与现有推理模型的对比分析
3. Anthropic公司最新融资情况及市场估值

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

 AI好好用报道

编辑:Sia
行业似乎正朝着一个未来迈进,即一个模型可以做所有事情,而不是提供独立的推理模型。
看来 AI 圈的军备竞赛,又要进入新回合了~
image
继去年 6 月推出超能打的 Claude 3.5 Sonnet 后,OpenAI 劲敌 Anthropic 又拿出了新的旗舰模型 Claude 3.7 Sonnet。


它不仅是 Anthropic 首个能够推理的 AI 模型,还号称业界首个「混合推理模型」。

image.png

前两天也有科技媒体报道,OpenAI 可能即将发布自己的混合 AI 模型

啥叫混合推理模型?

简单来说,o3-mini、R1、Gemini 2.0 Flash Thinking 和 Grok 3 ( Think ) 等都是单独提供推理模型。



而 Claude 3.7 Sonnet 用一种混合推理架构,将逻辑推理与生成能力进行了深度融合。

换句话说,Claude 3.7 Sonnet 既是普通的基础模型,日常唠嗑秒回你(标准模式);又是推理模型,遇到烧脑题可切换学霸模式(扩展模式)。

聊天框里就能自由切换,非常方便!


咱们人类聊天,简单问题脱口而出,复杂问题托腮思考,根本没有两个独立的大脑分别应对不同问题。

所以,Anthropic 认为,推理只是前沿模型应该具备的功能之一,可以与其他功能顺利整合,不该是个需要单独付费才能访问的独立功能。

只要你是付费用户,这波升级就算白给!

还是每月 20 美元的订阅费,即可解锁推理功能!

开发者可通过「scratchpad」功能干预模型思考过程,甚至精确控制响应时间(如要求200毫秒内响应)。

据《华尔街日报》的报道,Anthropic 发布 Claude 3.7 Sonnet,年化收入约为 12 亿美元,公司仍在亏损。


Anthropic 正在完成一轮 35 亿美元的融资,估值达到 615 亿美元。如果融资成功,Anthropic 的总筹集金额将接近 180 亿美元。


-1-

代码:妥妥的 NO.1


基准测试显示,3.7 版本在数学和编码任务中表现显著提升,能处理更复杂的多步骤问题。


简单探讨颜色名称的起源与历史事件之间的关系——「如果没有 Magenta 这个小镇,『洋红色』的叫法还存在吗?」


启动扩展思考,Claude 3.7 Sonnet 推理能力显然在线:

名字来源于纪念这座小镇的一场战役,如果小镇不存在,这个颜色的名字就可能是另一个名称,答案说,不会有这个名字的存在。

正确!


image.png来自科技媒体arstechnica

当然,3.7 版本的编码能力最为突出,以至于人们会揣测 Anthropic 要将 Sonnet 系列定位为编码 AI。

一些科研人员也与 Nature 分享过经验,认为 Claude 属于「代码型」。

事实上,Claude 3.5 早已是很多开发者心目中最佳的 AI 编程的模型,Claude 3.7 进一步将这一优势提升了 20%,稳居第一。

image.pngClaude 一直就是很多开发者心目中最佳的 AI 编程的模型。

新模型到底有多惊艳呢?

有网友用 Claude 3.7 Sonnet 编写新春版贪吃蛇游戏,一次成功。


来自 X @wshuyi


生成动画天气卡片,展示四种天气条件:风、雨、晴、雪,每种都有不同的动画效果,并且要并排显示在一个深色背景上。

此外,还要有一个功能或按钮来切换不同的天气条件,展示每种动画。


X@AGI_FromWalmart


更复杂一点。「做一个可以互动的时间机器,挑选一些不寻常的时代,供人穿越回到过去,并发生一些有趣的事情。」并且,「添加更多图形。」

仅仅通过这两个提示,就产生了一个完全可互动的体验,配有粗糙但迷人的像素图形。

这里的挑战性在于 AI 必须用纯代码「绘制」这些图形,这就像要求一位盲人画家准确呈现它们。


来自X@emollick


再来一个。让 Claude 基于赫尔曼·梅尔维尔的故事《巴特比,抄写员》创作一款具有独特机制的视频游戏。


结果,它仅凭一个提示就完成了。


来自X@emollick


创建一个 3D 城市场景。

来自 X@ozgrozer

一个三角球在十二边形内弹跳,每次弹跳时球都会改变颜色,背景是太空。


来自X@KungFuKurrupttt


看看这个多米诺骨牌效应。


来自 X@_akhaliq

-2-

AI Agent Claude Code


到目前为止,2025 年是  R1 、 o3、以及 AI Agent 工具(如 OpenAI 的Operator 和 Deep Research )的一年。

Anthropic 也不甘落后,同时宣布了其首款代理工具 Claude Code。

这是一款自主编码助手,你可以直接将大量的终端任务委派给它—— Claude Code 可以搜索和阅读代码、编辑文件、编写和运行测试、提交和推送代码到 GitHub,以及使用命令行工具。

有人用 Sonnet 3.7 进行视频编码,发现效果非常出色。他们还开发了一个机器人,这个机器人可以使用 Claude Code 将 Linear 任务工单自动转换成 GitHub 上的拉取请求。

来自X@pveerina

在这个案例中,Claude 3.7 Sonnet 与 Claude Code 一次性创建了整个玻璃风格的设计系统,包含所有组件, 甚至正确使用了变量而不是像颜色等那样硬编码。

来自X@skirano

Anthropic 还希望 Claude Code 能作为调试和重构任务的助手。公司声称,在内部测试中,Claude Code 能在一次会话中完成通常需要超过 45 分钟的手动工作。

目前,Claude Code 仅作为有限的研究预览提供,Anthropic 表示计划根据用户反馈不断改进该工具。

-3-

svg 绘图王者

还记得那个让大模型恼火的 svg 绘图挑战赛吗?请画一只骑自行车的鹈鹕。

image.png

在这场 svg 可视化能力实测中,大模型们几乎全军覆没,除了  Claude,以至于 Andrzej Karpathy 推测 Claude 是针对 svg 专门训练过的。

这回,Claude 3.7 再次证明自己依然是 svg 可视化的王者。

image.png
来自X@simonw,这是没有启用推理功能(左)和启用后(右)的对比。

有网友请它创建一个 svg 格式的 Swimlane Diagram,需要满足一系列复杂的规范。

结果,3.7版本完美生成了 svg 的 Swimlane Diagram。

image.png
来自X@LinearUncle

还有人发现花的 tokens 越多,独角兽越像独角兽。


来自X@DimitrisPapail
至于讲笑话嘛,要求「创作 5 个世界上找不到的原创老爸笑话」。这是一些结果:

「为什么程序员要洗澡?因为他们要调试代码!」

「气象学家对 IT 专家说了什么?『你的云计算预测看起来有点技术性,还有更新的可能!』」

………

看完后,我只想说「把我的枪拿来。」

image.png
来自科技媒体arstechnica
值得注意的是,Claude 3.7 Sonnet  仍然缺乏其他模型的实时网络搜索功能,其知识截止日期为 2024 年 10 月
以后我们会带来更多好玩的AI评测,也欢迎大家进群交流。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询