我要投稿

『面壁智能』低调开源「理科状元」Eurux-8x22B，推理性能超越 Llama3-70B

发布日期：2024-05-06 16:05:01 浏览次数： 1989 作者：HsuDan

两周前，早在 Llama3 发布的前两天，『面壁智能』低调开源了大模型 Eurux-8x22B，包括 Eurux-8x22B-NCA 和 Eurux-8x22B-KTO。该模型主打更强大的推理性能——刷新开源大模型推理性能 SOTA，堪称开源大模型中「理科状元」。

除了开源时间早于 Llama3，Eurux-8x22B 的激活参数仅有 39B，推理速度更快，目前支持 64K 上下文，相比之下 Llama3-70B 的上下文大小为 8K。

图注：面壁Eurux-8x22B 模型在 LeetCode 和 TheoremQA这两个具有挑战性的基准测试中，刷新开源大模型推理性能 SOTA。

此外，Eurux-8x22B 由 Mistral-8x22B 对齐而来，在 UltraInteract 大规模、高质量对齐数据集上训练而成，综合性能不输 Llama3-70B。

相比而言，Llama3-70B 模型则是使用了千万量级的对齐数据，这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量。

UltraInteract

UltraInteract 是一个专门用于提升大模型推理能力的大规模、高质量对齐数据集，包含了涵盖数学、代码和逻辑推理问题的 12 个开源数据集的 86K 条指令和 220K 偏好对，总共有五十万条左右数据可供使用。

UltraInteract 采用了树状结构（tree-structured）来组织数据，这种结构有助于模型学习如何通过多轮交互来优化其推理过程。如下图所示：

图注：UltraInteract（第三列）是当前唯一一个树状结构的对齐数据集

具体来说，UltraInteract 数据集主要有以下三个特点：多样高质量数据，多轮交互（如下图所示），偏好学习。

图注：UltraInteract 两轮交互的过程

UltraInteract 对齐数据集地址： https://github.com/OpenBMB/Eurus

图注：面壁Eurux-8x22B 模型综合性能比肩 Llama3-70B，超越开源模型 WizardLM-2-8x22b，Mistral-8x22b-Instruct，DeepSeek-67b，以及闭源模型 GPT-3.5-turbo。

目前，Eurux-8x22B 模型和对齐数据，全家桶开源：
https://github.com/OpenBMB/Eurus
https://huggingface.co/openbmb/Eurux-8x22b-nca

根据测评，Eurux-8x22B 在代码和数学等复杂推理的综合性能方面刷新开源大模型 SOTA。

在官方测试中，Eurux-8x22B 在 LeetCode（包含180道编程真题）和 TheoremQA（美国大学水准的STEM题目）两项测试上超过了 Llama3-70B，并且在 LeetCode 测试中超越了闭源的GPT-3.5-Turbo。

既然 Eurux-8x22B 主打推理能力，那在实际应用中表现如何呢？

面壁智能 Eurux-8x22B 参加了近期的一场 LeetCode 周赛，结果显示：Eurux-8x22B 的 Python 编程能力非常优秀，成功解决了四道算法题中的三道，其综合排名超越了 80% 的人类参赛选手，可以初步通过互联网大厂的程序员编程面试。

下面是本次周赛中 Eurux-8x22B 对一道中等难度的算法题的真实解答：

除了代码题做的不错，Eurux-8x22B 解答数学题也不在话下。

Eurux-8x22B 解答高考函数题，也能做到准确无误。

参考：

https://mp.weixin.qq.com/s/BAeFq-jXuyXiGMF7MMy5qw

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

OpenAI 官方定义：到底什么是 AI Agent？

2025-04-20

LLM如何将杂乱文本变为可视化知识图谱？

2025-04-20

大模型能像专业分析师一样提取用户需求吗？

2025-04-20

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

微软最新 Playwright MCP 服务器强势来袭？

2025-04-19

大概念模型（Large Concept Models）会取代提示工程吗？

2025-04-18

什么是RAG与为什么要RAG？

2025-04-18

OpenAI开源的Codex CLI是什么？

2025-04-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB