AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


刚刚!Anthropic 发布 Claude 3.5 Sonnet,更强,更快,更便宜!
发布日期:2024-06-21 03:24:30 浏览次数: 1804


就在刚刚!Anthropic 官网宣布发布 Claude 3.5 Sonnet!它在数学和编码能力上超过 GPT-4o,API 价格降为 1/15,最牛的是 Artifacts 特性,可以生成代码并支持实时预览与迭代,可以用于生成 PPT、在线网站、游戏!本文是官网博客的全文翻译,更多演示请前往视频号查看。

今天,我们推出了 Claude 3.5 Sonnet——即将发布的 Claude 3.5 模型系列中的首个版本。Claude 3.5 Sonnet 在广泛的评估中提高了行业智能标准,超过了竞品模型和 Claude 3 Opus,且速度与我们的中端模型 Claude 3 Sonnet 相当,成本效益高。

Claude 3.5 Sonnet 现在可在 Claude.ai 和 Claude iOS 应用上免费使用,而 Claude Pro 和 Team 计划订阅者可以访问它,并享有更高的速率限制。此外,它还可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 获得。该模型的成本为每百万输入令牌 3 美元,每百万输出令牌 15 美元,具有 20 万令牌的上下文窗口。

前沿智能,速度加倍

Claude 3.5 Sonnet 在研究生水平推理(GPQA)、本科生知识水平(MMLU)和编程熟练度(HumanEval)方面设定了新的行业基准。它在把握细微差别、幽默和复杂指令方面表现出显著改进,并以自然、易于理解的语调撰写高质量内容,表现卓越。

Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。这种性能提升结合具有成本效益的定价,使 Claude 3.5 Sonnet 非常适合处理复杂的任务,如上下文敏感的客户支持和编排多步骤工作流程。

在 内部代理编码评估 中,Claude 3.5 Sonnet 解决了 64% 的问题,优于解决了 38% 的问题的 Claude 3 Opus。我们的评估测试了模型在给定自然语言描述所需改进的情况下,修复开源代码库中的错误或添加功能的能力。当被指示并 提供相关工具 时,Claude 3.5 Sonnet 可以独立编写、编辑和执行代码,具有复杂的推理和故障排除能力。它轻松处理代码翻译,使其特别适用于更新遗留应用程序和迁移代码库。

最先进的视觉能力

Claude 3.5 Sonnet 是我们迄今为止最强大的视觉模型,在标准视觉基准测试中超越了 Claude 3 Opus。这些跨越式的改进在需要视觉推理的任务中最为明显,如解读图表和图形。Claude 3.5 Sonnet 还可以从不完美的图像中准确转录文本——这是零售、物流和金融服务领域的核心能力,在这些领域中,AI 可能从图像、图形或插图中获取比仅从文本中更多的见解。

Artifacts——使用 Claude 的新方式

今天,我们还在 Claude.ai 上推出了 Artifacts,这是一项新功能,扩展了用户与 Claude 的交互方式。当用户要求 Claude 生成代码片段、文本文档或网站设计等内容时,这些 Artifacts 将出现在专用的窗口中,与他们的对话并列。这创建了一个动态的工作空间,用户可以在其中实时查看、编辑和构建 Claude 的创作,无缝地将 AI 生成的内容集成到他们的项目和工作流程中。

此预览功能标志着 Claude 从对话式 AI 演变为协作工作环境。这只是 Claude.ai 更广泛愿景的开始,该愿景将很快扩展到支持团队协作。在不久的将来,团队——最终是整个组织——将能够在共享空间中安全地集中他们的知识、文档和正在进行的工作,Claude 将作为随叫随到的团队成员。

对安全和隐私的承诺

我们的模型经过严格测试,并经过训练以减少误用。尽管 Claude 3.5 Sonnet 在智能方面取得了飞跃,但我们的红队评估得出结论,Claude 3.5 Sonnet 仍处于 ASL-2 水平。更多详细信息可在 模型卡附录 中找到。

作为我们对安全和透明度的承诺的一部分,我们与外部专家合作测试和改进该最新模型中的安全机制。最近,我们将 Claude 3.5 Sonnet 提供给英国人工智能安全研究所(UK AISI)进行预部署安全评估。UK AISI 完成了对 3.5 Sonnet 的测试,并将结果与美国人工智能安全研究所(US AISI)共享,作为两国 AISI 之间 今年早些时候宣布的合作伙伴关系 的一部分。

我们整合了外部主题专家的政策反馈,以确保我们的评估是稳健的,并考虑到新的滥用趋势。这种参与帮助我们的团队扩大了评估 3.5 Sonnet 应对各种类型滥用的能力。例如,我们使用来自 Thorn 的儿童安全专家的反馈来更新我们的分类器并微调我们的模型。

指导我们 AI 模型开发的核心宪法原则之一是隐私。除非用户明确许可,否则我们不会使用用户提交的数据来训练我们的生成模型。到目前为止,我们尚未使用任何客户或用户提交的数据来训练我们的生成模型。

即将推出

我们的目标是每隔几个月就显著提高智能、速度和成本之间的权衡曲线。为了完成 Claude 3.5 模型系列,我们将在今年晚些时候发布 Claude 3.5 Haiku 和 Claude 3.5 Opus。

除了开发我们的下一代模型系列外,我们还在开发新的模态和功能,以支持更多企业用例,包括与企业应用的集成。我们的团队还在探索诸如 Memory 等功能,该功能将使 Claude 能够根据指定记住用户的偏好和交互历史,使他们的体验更加个性化和高效。

我们不断致力于改进 Claude,并喜欢听取用户的反馈。您可以直接在产品中提交关于 Claude 3.5 Sonnet 的反馈,以指导我们的开发路线图并帮助我们的团队改进您的体验。一如既往地,我们期待看到您使用 Claude 构建、创造和发现的内容。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询