我要投稿

Yi-1.5-34B开源小尺寸打平千亿模型，切换 Apache 2.0 全球社区点赞

发布日期：2024-06-09 07:38:50 浏览次数： 2669 作者：零一万物 01AI

风云变幻的 LMSYS Chatbot Arena 盲测竞技场再次迎来新成员！

近日，Yi-1.5-34B 登录 Chatbot Arena，在总榜中以 1162 的 ELO 积分超越了 GPT-4-0613、Mistral-large-2402 等知名海外厂商发布的大尺寸模型，与 Qwen1.5-110B-Chat 并列第20名（2024.6.6）。在中文分榜上，Yi-1.5-34B 更是以 1274 的 ELO 积分跻身世界前十，同时在采用 Apache 2.0 许可协议的模型中位居第一（2024.6.6），可谓是开源界中小模型中最能打的羽量级选手，连 LMSYS 评测组织方都官方发帖恭贺。

LMSYS 评测组织官方发帖恭贺

Yi-1.5-34B在中文分榜中跻身前十

Yi-1.5-34B LMSYS 冲擂成绩出众

相比 7B、13B 等尺寸，34B 模型具备更优越的知识容量、下游任务的容纳能力，也达到了大模型 “涌现”的门槛；而比起 70B 以上的参数量，34B 是单卡推理可接受的模型尺寸的上限，经过量化的模型可以在一张消费级显卡（如4090）上进行高效率的推理。因此，34B 的模型尺寸在开源社区属于稀缺的“黄金比例”尺寸。也是基于这一认知，零一万物正式开源的首款预训练大模型就是 Yi-34B。

相较于去年 11 月的开源版本，这次的 Yi-1.5-34B 在保持原 Yi 系列模型优秀的通用语言能力的前提下，通过增量训练 500B 高质量 token，大幅提高了数学逻辑、代码能力。与迭代前的 Yi-34B 相比， Yi-1.5-34B 在 LMSYS 总榜上的 ELO 积分大幅提升，从 Yi-34B 的 1111 增至 1162（2024.6.6）；在“Coding”分榜上，Yi-1.5-34B 的 ELO 积分也由上一版本的 1108 增至 1161（2024.6.6）。

Chatbot Arena 由伯克利 Sky Lab 师生运营的开放研究组织 LMSYS Org （Large Model Systems Organization）发布。在形式上，Chatbot Arena 借鉴了搜索引擎时代的横向对比评测思路。它首先将所有上传评测的“参赛”模型随机两两配对，以匿名模型的形式呈现在用户面前。随后号召真实用户输入自己的提示词，在不知道模型型号名称的前提下，由真实用户对两个模型产品的作答给出评价。来自真实用户的评价将基于 ELO 机制汇总为模型的 ELO 分数，并最终形成模型排名。

凭借着引入千万真实用户投票、盲测、权威学术机构背书等要素加持，目前 Chatbot Arena 已经成为后 Benchmark 时代的评测风向标，也是 OpenAI、Anthropic、Google、Meta 等国际大厂“龙争虎斗”的当红擂台。

值得注意的是，由于 Yi-1.5-34B 上榜时间不长，参与的盲测次数、获得的投票数相对较少，因此 Yi-1.5-34B ELO 评分的置信区间（Confidence Interval）的浮动也会相对较大。

为了验证 LMSYS 榜单排名的准确性、减少样本较小所带来的不确定性，我们选择参考 MixEval、MMLU-Pro、WildBench 等其他评测集的成绩，结果 Yi-1.5-34B 同样取得了优于同量级模型的成绩。在 WildBench 排名中，Yi-1.5-34B的表现更是优于更大参数量级的 Qwen2-72B-Instruct（2024.6.6）。这些评测成绩构成了Yi-1.5-34B 模型出众性能的有力佐证。

高质量数据构建管线成效初显

Yi-1.5-34B 首次上榜与诸多知名模型同台竞技，能够取得超越 GPT-4-0613、与 Qwen1.5-110B-Chat 比肩的成绩，得益于零一万物在模型训练中科学的算法与高质量数据的合理应用。零一万物模型训练负责人黄文灏此前曾表示，零一万物在模型训练时没有急于做 Scale up、推出第一款模型，而是选择重点提升数据质量，在基础能力建设完毕后，模型 Scale up 都会变得非常顺畅。

零一万物将提升数据质量作为高优先级事项，进行了科学的数据质量控制。目前已经搭建起了高质量数据的生产管线，能够在确保数据质量的前提下实现规模扩展。这些高质量数据成为 Yi-1.5 系列开源模型顺利实现代码、数学能力提升的基础条件。

以此次 Yi-1.5 系列开源模型迭代为例，增量预训练已经成为提高大规模语言模型（LLM）在特定领域表现的重要方面。找到训练数据的最佳混比是这次 Yi-1.5 模型训练的关键挑战。然而，探索不同数据混合对LLM的影响既耗时又费力，且在识别持续预训练最佳数据混合方面的研究有限，尤其是对于代码和数学推理等特定领域任务。为了解决这一挑战，模型训练团队在不同规模的各种数据混合上进行了实验，并总结出了一套针对继续预训练的经验。

为了充分释放预训练模型在聊天场景中的潜力，零一万物还创新了指令调优方法。根据观察到的指令调优 Scaling effect，零一万物从代码、数学、科学、工程、人文学科和通用聊天数据等诸多领域扩增指令调优数据，清楚地展示了 Scaling 的优势。通过使用 300 万条人工标注和高质量的合成指令调优样本，团队在保持了 Yi 模型优秀的通用能力的前提下，进一步提高了模型在代码和推理等各个关键领域的表现。

在指令微调SFT阶段，基于开源数据，零一万物也开始尝试采用了新颖的合成数据方案，这大大降低了数据构建成本。

Yi-1.5 系列的成功实践再次证明了零一万物在模型训练方面决策的正确性，也让团队看到，Yi-Large 或更大尺寸模型的上限还可以更高，在数据构建和训练过程还存在着优化空间。高质量、低成本的数据生产管线将会在后续多个模型的训练中得到复用，也预示着零一万物的数据构建成本与模型训练成本将进一步降低。在追逐 TC-PMF 的行业竞争中，降低的模型训练成本将为零一万物赢得宝贵的时间窗口，支撑其在优势窗口期构建出新的竞争壁垒。

切换 Apache 2.0 许可证，国际社区好评

作为全球生态建设的重要一环，零一万物尤其重视 Yi 系列开源模型的开发者体验。具体实践中，此次 Yi-1.5 发布时，零一万物也选用了开发者最熟悉的宽松许可证—— Apache 2.0，引发了国际开源社区的热烈讨论和一致好评，这是零一万物面向全球、拥抱开源的具体行动。

“我们相信开源开发者生态依赖于口碑，国内生态需要更多中立角色，以开发者为中心进行良性竞争。海外开发者更注重体验，无论是使用开源模型还是 API，都追求良好体验。”零一万物开源负责人林旅强表示，“我们真诚地希望，升级后的 Yi-1.5 系列开源模型能够为大家带来真正的价值。”