我要投稿

Anthropic 的 Claude 3.5 表明：大模型还有提升空间

发布日期：2024-06-22 06:24:54 浏览次数： 1856

Anthropic正式发布Claude 3.5 Sonnet，数据碾压GPT-4o，速度也大幅提升。

据报道，在发布一个月后，一个新的大型语言模型（LLM）显然从OpenAI的GPT-4手中夺走了性能桂冠。

今天，由Anthropic发布的新的Claude 3.5 Sonnet聊天机器人和LLM，在关键的第三方基准测试中超越了世界上所有其他模型。

据该公司称，它不仅性能更好，而且比之前的Claude 3模型更快、更便宜。

但推出一个新模型并宣称其主导地位是一回事，让用户真正体验并利用性能提升则是另一回事。

Anthropic最新发布的Claude 3.5 Sonnet似乎没有这个问题。在发布后的短短几小时内，许多 AI 影响者和高级用户已经在网上分享了他们对这款新模型的积极印象，并展示了这个世界上“最智能”的大型语言模型能够完成的任务。

提升编程技能和产品创作

正如企业AI影响者和专家艾莉·K·米勒在X平台上所写，Claude 3.5 Sonnet 仅凭一个截图，在不到半分钟的时间内为她创建了一个完整的可玩游戏：

同样，信息丰富且及时的X账号@TestingCatalog News展示了新推出的“Artifacts” playground——该平台与Claude 3.5 Sonnet同时亮相，实际上展示了聊天机器人界面旁边的交互输出视图——可以执行Claude 3.5 Sonnet构建的真实可用的网页表单代码。

它甚至能够重现1995年经典电影《黑客帝国》（Hackers）中的影像：

企业AI图像生成初创公司EverArt的创始人彼得罗·施拉诺在X平台上写道，将Claude 3.5 Sonnet与另一款工具Maestro结合使用，显示出“通用人工智能的火花？”

Anthropic员工为

Claude 3.5 Sonnet站台

尽管显然存在偏见，Anthropic开发者关系团队负责人亚历克斯·艾伯特在X平台上发了一条帖子，强调Claude 3.5 Sonnet “在编程和自主修复拉取请求方面开始变得非常出色”，甚至表示：“很明显，再过一年，大量代码将由大型语言模型编写。”

同样，Anthropic的技术人员玛吉·沃在X平台上发帖称，Claude 3.5 Sonnet 现在能完成“我一半的工作……我对此感到非常高兴。”

给OpenAI 施加压力

其他人则指出，现在Claude 3.5 Sonnet已经超越了OpenAI的GPT-4o，并且以类似的价格提供，后者公司面临着继续证明其模型是正确选择的新的压力。

宾夕法尼亚大学沃顿商学院教授兼AI推动者伊桑·莫利克将Artifacts功能与 OpenAI GPT-4的“简化版Code Interpreter”进行了比较。

X 用户@kimmonismus更进一步，表示OpenAI将“错过通用人工智能（AGI）”，即公司宣称的在大多数具有经济价值的工作中表现优于人类的AI 模型目标。他们抨击公司宣布了尚未推出的GPT-4o的附加功能，包括新的语音模式。

仍未达到人类水平

尽管在X平台上备受赞誉，但也有人指出，Claude 3.5 Sonnet在一些看似简单的认知任务上仍然存在困难，这些任务是人类相对容易完成的，比如玩“井字棋”。

同样，科技记者蒂莫西·B·李，在X平台上以@binarybits为名，指出它“有时仍会犯愚蠢的错误”。他发布了一张截图，展示了一个简单的数学文字问题的答案：哪个更值钱：100个便士还是3个25美分硬币？Claude 3.5 Sonnet 最初回答是3个25美分硬币。

尽管目前存在这些较小的问题，Claude 3.5 Sonnet仍然是Anthropic和大型语言模型（LLM）的一个巨大飞跃，并表明各个AI模型制造商的性能提升在当前可用计算资源（如 GPU）水平上肯定没有放缓。（VentureBeat）

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

全面对比dify、coze、streamlit、chainlit

2024-04-26

“大数据+”医疗

2024-04-11

太强了！10大开源大模型！

2024-05-06

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

大模型训练及推理【硬件选型指南】及 GPU 通识

2024-05-09

HealthGPT：华工数字孪生人实验室发布主动健康大模型基座

2023-07-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

大家都在问

超越传统仪表盘，对话式BI让数据洞察更智能

2024-09-20

GenAI赋能下的对话式BI：数据洞察的未来

2024-09-20

如何使用GPT创建AI Agents？

2024-09-20

AIGCDesign 开放式跨端 AI 组件解决方案

2024-09-20

专访瓴羊CEO朋新宇：AI时代做产品，要从场景解构开始｜甲子光年

2024-09-20

RAG+Agent人工智能平台：RAGflow实现GraphRA知识库问答，打造极致多模态问答与AI编排流体验

2024-09-20

史上最强编程助手来了！GitHub Copilot再进化，引人OpenAI o1！

2024-09-20

OpenAI携手T-Mobile，AI客户体验新时代到来了

2024-09-20

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

全面对比dify、coze、streamlit、chainlit

“大数据+”医疗

太强了！10大开源大模型！

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

大模型训练及推理【硬件选型指南】及 GPU 通识

HealthGPT：华工数字孪生人实验室发布主动健康大模型基座

Ollama 本地运行大模型(LLM)完全指南

大家都在问

超越传统仪表盘，对话式BI让数据洞察更智能

GenAI赋能下的对话式BI：数据洞察的未来

如何使用GPT创建AI Agents？

AIGCDesign 开放式跨端 AI 组件解决方案

专访瓴羊CEO朋新宇：AI时代做产品，要从场景解构开始｜甲子光年

RAG+Agent人工智能平台：RAGflow实现GraphRA知识库问答，打造极致多模态问答与AI编排流体验

史上最强编程助手来了！GitHub Copilot再进化，引人OpenAI o1！

OpenAI携手T-Mobile，AI客户体验新时代到来了

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

全面对比dify、coze、streamlit、chainlit

“大数据+”医疗

太强了！10​大开源大模型！

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

大模型训练及推理【硬件选型指南】及 GPU 通识

HealthGPT：华工数字孪生人实验室发布主动健康大模型基座

Ollama 本地运行大模型(LLM)完全指南

大家都在问

超越传统仪表盘，对话式BI让数据洞察更智能

GenAI赋能下的对话式BI：数据洞察的未来

如何使用GPT创建AI Agents？

AIGCDesign 开放式跨端 AI 组件解决方案

专访瓴羊CEO朋新宇：AI时代做产品，要从场景解构开始｜甲子光年

RAG+Agent人工智能平台：RAGflow实现GraphRA知识库问答，打造极致多模态问答与AI编排流体验

史上最强编程助手来了！GitHub Copilot再进化，引人OpenAI o1！

OpenAI携手T-Mobile，AI客户体验新时代到来了

热门标签

太强了！10大开源大模型！