我要投稿

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

发布日期：2024-07-24 19:32:36 浏览次数： 3547

Meta于7月23日发布Meta Llama 3.1 405B，并认为这是世界上最大、功能最强大的开源基础模型。顶级开源模型Llama 3.1 405B的上下文长度扩展到了 128K、支持八种语言，在常识、可操纵性、数学、工具使用和多语言翻译等方面可与 GPT-4、GPT-4o、Claude 3.5 Sonnet 等领先的闭源模型相媲美。

针对公众关注的Llama 3.1 405B的中文性能问题，作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说，我们采用了中文数学多步推理测评基准（SuperCLUE-Math6，含2024题）和中文等级化代码单元测试基准（SuperCLUE-Code3，包含1560个测试用例），对Llama 3.1 405B在数学和编程方面的能力进行了全面评估。

先说结论

结论1：在完成SuperCLUE推理任务时，Llama 3.1 405B的整体得分为88.44，超过GPT-4 Turbo，仅次于GPT-4o，暂据排行榜第二。

结论2：Llama 3.1 405B在SC-Math6数学基准上得分91.19分，判定为推理等级5，与GPT-4o相比仅有0.58分的差距，领先其他模型。

结论3：Llama 3.1 405B在SC-Code3代码基准上得分69.68分，接近70分，较GPT-4 Turbo略高（0.11分），与GPT-4o有一定差距（2分）。

测评结果

SuperCLUE-Math6

SuperCLUE-Code3

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-03-11

阿里QwQ-32B发布啦，可能是671B最好的替代方案

2025-03-11

填补空白！首个提升大模型工作流编排能力的大规模数据集开源

2025-03-11

何必舍近求远计算工厂帮你一键部署DeepSeek云主机

2025-03-11

剖析DeepSearcher，可本地部署的深度研究框架

2025-03-11

上线一天Github过万星，OpenManus核心作者聊Agent发展趋势

2025-03-11

微软开源多模态AI基础模型！无需额外微调轻松拿捏网页、机器人

2025-03-11

Manus AI 被「越狱」了？创始人紧急回应，并官宣开源计划

2025-03-10

惊了！动动嘴皮子就能搞定图像识别？这个神器让 AI 编程不再是梦！（内附代码）

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

太强了！10大开源大模型！

2024-05-06

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

DeepSeek-V3 正式发布

2024-12-26

大家都在问

5 个人、3 小时，开源复刻 Manus？

2025-03-08

单机部署满血版DeepSeek，谁才是最具性价比的一体机方案？

2025-03-03

一文读懂 DeepSeek 开源周，CEO 梁文锋亲自写代码？

2025-03-02

DeepSeek开源的FlashMLA有什么优势？

2025-03-01

DeepSeek不同版本私有化部署成本对比：企业如何选择最优方案？

2025-02-26

开源VS闭源，DeepSeek是最好选择吗？

2025-02-23

AI 本地部署中的 ollama 是什么？

2025-02-18

如何使用 Higress 快速构建 AI 应用？

2025-02-15

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）杨小姐 186 6662 7370

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204 陈先生 185 8882 0121

上海：上海市浦东新区金新路58号1602室戴先生 186 1639 7587

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部