我要投稿

刚刚！Anthropic 发布 Claude 3.5 Sonnet，更强，更快，更便宜！

发布日期：2024-06-21 03:24:30 浏览次数： 1804

就在刚刚！Anthropic 官网宣布发布 Claude 3.5 Sonnet！它在数学和编码能力上超过 GPT-4o，API 价格降为 1/15，最牛的是 Artifacts 特性，可以生成代码并支持实时预览与迭代，可以用于生成 PPT、在线网站、游戏！本文是官网博客的全文翻译，更多演示请前往视频号查看。

今天，我们推出了 Claude 3.5 Sonnet——即将发布的 Claude 3.5 模型系列中的首个版本。Claude 3.5 Sonnet 在广泛的评估中提高了行业智能标准，超过了竞品模型和 Claude 3 Opus，且速度与我们的中端模型 Claude 3 Sonnet 相当，成本效益高。

Claude 3.5 Sonnet 现在可在 Claude.ai 和 Claude iOS 应用上免费使用，而 Claude Pro 和 Team 计划订阅者可以访问它，并享有更高的速率限制。此外，它还可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 获得。该模型的成本为每百万输入令牌 3 美元，每百万输出令牌 15 美元，具有 20 万令牌的上下文窗口。

前沿智能，速度加倍

Claude 3.5 Sonnet 在研究生水平推理（GPQA）、本科生知识水平（MMLU）和编程熟练度（HumanEval）方面设定了新的行业基准。它在把握细微差别、幽默和复杂指令方面表现出显著改进，并以自然、易于理解的语调撰写高质量内容，表现卓越。

Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。这种性能提升结合具有成本效益的定价，使 Claude 3.5 Sonnet 非常适合处理复杂的任务，如上下文敏感的客户支持和编排多步骤工作流程。

在内部代理编码评估中，Claude 3.5 Sonnet 解决了 64% 的问题，优于解决了 38% 的问题的 Claude 3 Opus。我们的评估测试了模型在给定自然语言描述所需改进的情况下，修复开源代码库中的错误或添加功能的能力。当被指示并提供相关工具时，Claude 3.5 Sonnet 可以独立编写、编辑和执行代码，具有复杂的推理和故障排除能力。它轻松处理代码翻译，使其特别适用于更新遗留应用程序和迁移代码库。

最先进的视觉能力

Claude 3.5 Sonnet 是我们迄今为止最强大的视觉模型，在标准视觉基准测试中超越了 Claude 3 Opus。这些跨越式的改进在需要视觉推理的任务中最为明显，如解读图表和图形。Claude 3.5 Sonnet 还可以从不完美的图像中准确转录文本——这是零售、物流和金融服务领域的核心能力，在这些领域中，AI 可能从图像、图形或插图中获取比仅从文本中更多的见解。

Artifacts——使用 Claude 的新方式

今天，我们还在 Claude.ai 上推出了 Artifacts，这是一项新功能，扩展了用户与 Claude 的交互方式。当用户要求 Claude 生成代码片段、文本文档或网站设计等内容时，这些 Artifacts 将出现在专用的窗口中，与他们的对话并列。这创建了一个动态的工作空间，用户可以在其中实时查看、编辑和构建 Claude 的创作，无缝地将 AI 生成的内容集成到他们的项目和工作流程中。

此预览功能标志着 Claude 从对话式 AI 演变为协作工作环境。这只是 Claude.ai 更广泛愿景的开始，该愿景将很快扩展到支持团队协作。在不久的将来，团队——最终是整个组织——将能够在共享空间中安全地集中他们的知识、文档和正在进行的工作，Claude 将作为随叫随到的团队成员。

对安全和隐私的承诺

我们的模型经过严格测试，并经过训练以减少误用。尽管 Claude 3.5 Sonnet 在智能方面取得了飞跃，但我们的红队评估得出结论，Claude 3.5 Sonnet 仍处于 ASL-2 水平。更多详细信息可在模型卡附录中找到。

作为我们对安全和透明度的承诺的一部分，我们与外部专家合作测试和改进该最新模型中的安全机制。最近，我们将 Claude 3.5 Sonnet 提供给英国人工智能安全研究所（UK AISI）进行预部署安全评估。UK AISI 完成了对 3.5 Sonnet 的测试，并将结果与美国人工智能安全研究所（US AISI）共享，作为两国 AISI 之间今年早些时候宣布的合作伙伴关系的一部分。

我们整合了外部主题专家的政策反馈，以确保我们的评估是稳健的，并考虑到新的滥用趋势。这种参与帮助我们的团队扩大了评估 3.5 Sonnet 应对各种类型滥用的能力。例如，我们使用来自 Thorn 的儿童安全专家的反馈来更新我们的分类器并微调我们的模型。

指导我们 AI 模型开发的核心宪法原则之一是隐私。除非用户明确许可，否则我们不会使用用户提交的数据来训练我们的生成模型。到目前为止，我们尚未使用任何客户或用户提交的数据来训练我们的生成模型。

即将推出

我们的目标是每隔几个月就显著提高智能、速度和成本之间的权衡曲线。为了完成 Claude 3.5 模型系列，我们将在今年晚些时候发布 Claude 3.5 Haiku 和 Claude 3.5 Opus。

除了开发我们的下一代模型系列外，我们还在开发新的模态和功能，以支持更多企业用例，包括与企业应用的集成。我们的团队还在探索诸如 Memory 等功能，该功能将使 Claude 能够根据指定记住用户的偏好和交互历史，使他们的体验更加个性化和高效。

我们不断致力于改进 Claude，并喜欢听取用户的反馈。您可以直接在产品中提交关于 Claude 3.5 Sonnet 的反馈，以指导我们的开发路线图并帮助我们的团队改进您的体验。一如既往地，我们期待看到您使用 Claude 构建、创造和发现的内容。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

全面对比dify、coze、streamlit、chainlit

2024-04-26

“大数据+”医疗

2024-04-11

太强了！10大开源大模型！

2024-05-06

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

大模型训练及推理【硬件选型指南】及 GPU 通识

2024-05-09

HealthGPT：华工数字孪生人实验室发布主动健康大模型基座

2023-07-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

大家都在问

超越传统仪表盘，对话式BI让数据洞察更智能

2024-09-20

GenAI赋能下的对话式BI：数据洞察的未来

2024-09-20

如何使用GPT创建AI Agents？

2024-09-20

AIGCDesign 开放式跨端 AI 组件解决方案

2024-09-20

专访瓴羊CEO朋新宇：AI时代做产品，要从场景解构开始｜甲子光年

2024-09-20

RAG+Agent人工智能平台：RAGflow实现GraphRA知识库问答，打造极致多模态问答与AI编排流体验

2024-09-20

史上最强编程助手来了！GitHub Copilot再进化，引人OpenAI o1！

2024-09-20

OpenAI携手T-Mobile，AI客户体验新时代到来了

2024-09-20

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询