AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Yi-1.5-34B开源小尺寸打平千亿模型,切换 Apache 2.0 全球社区点赞
发布日期:2024-06-09 07:38:50 浏览次数: 1782


风云变幻的 LMSYS Chatbot Arena 盲测竞技场再次迎来新成员!


近日,Yi-1.5-34B 登录 Chatbot Arena,在总榜中以 1162 的 ELO 积分超越了 GPT-4-0613、Mistral-large-2402 等知名海外厂商发布的大尺寸模型,与 Qwen1.5-110B-Chat 并列第20名(2024.6.6在中文分榜上,Yi-1.5-34B 更是以 1274 的 ELO 积分跻身世界前十,同时在采用 Apache 2.0 许可协议的模型中位居第一(2024.6.6),可谓是开源界中小模型中最能打的羽量级选手,连 LMSYS 评测组织方都官方发帖恭贺。


LMSYS 评测组织官方发帖恭贺

Yi-1.5-34B在中文分榜中跻身前十


Yi-1.5-34B LMSYS 冲擂成绩出众


比 7B、13B 等尺寸,34B 模型具备更优越的知识容量、下游任务的容纳能力,也达到了大模型 “涌现”的门槛;而比起 70B 以上的参数量,34B 是单卡推理可接受的模型尺寸的上限,经过量化的模型可以在一张消费级显卡(如4090)上进行高效率的推理。因此,34B 的模型尺寸在开源社区属于稀缺的“黄金比例”尺寸。也是基于这一认知,零一万物正式开源的首款预训练大模型就是 Yi-34B。


相较于去年 11 月的开源版本,这次的 Yi-1.5-34B 在保持原 Yi 系列模型优秀的通用语言能力的前提下,通过增量训练 500B 高质量 token,大幅提高了数学逻辑、代码能力。与迭代前的 Yi-34B 相比, Yi-1.5-34B 在 LMSYS 总榜上的 ELO 积分大幅提升,从 Yi-34B 的 1111 增至 1162(2024.6.6;在“Coding”分榜上,Yi-1.5-34B 的 ELO 积分也由上一版本的 1108 增至 1161(2024.6.6


Chatbot Arena 由伯克利 Sky Lab 师生运营的开放研究组织 LMSYS Org (Large Model Systems Organization)发布。在形式上,Chatbot Arena 借鉴了搜索引擎时代的横向对比评测思路。它首先将所有上传评测的“参赛”模型随机两两配对,以匿名模型的形式呈现在用户面前。随后号召真实用户输入自己的提示词,在不知道模型型号名称的前提下,由真实用户对两个模型产品的作答给出评价。来自真实用户的评价将基于 ELO 机制汇总为模型的 ELO 分数,并最终形成模型排名。


凭借着引入千万真实用户投票、盲测、权威学术机构背书等要素加持,目前 Chatbot Arena 已经成为后 Benchmark 时代的评测风向标,也是 OpenAI、Anthropic、Google、Meta 等国际大厂“龙争虎斗”的当红擂台。


值得注意的是,由于 Yi-1.5-34B 上榜时间不长,参与的盲测次数、获得的投票数相对较少,因此 Yi-1.5-34B ELO 评分的置信区间(Confidence Interval)的浮动也会相对较大。


为了验证 LMSYS 榜单排名的准确性、减少样本较小所带来的不确定性,我们选择参考 MixEval、MMLU-Pro、WildBench 等其他评测集的成绩,结果 Yi-1.5-34B 同样取得了优于同量级模型的成绩。在 WildBench 排名中,Yi-1.5-34B的表现更是优于更大参数量级的 Qwen2-72B-Instruct(2024.6.6。这些评测成绩构成了Yi-1.5-34B 模型出众性能的有力佐证。


高质量数据构建管线成效初显


Yi-1.5-34B 首次上榜与诸多知名模型同台竞技,能够取得超越 GPT-4-0613、与 Qwen1.5-110B-Chat 比肩的成绩,得益于零一万物在模型训练中科学的算法与高质量数据的合理应用。零一万物模型训练负责人黄文灏此前曾表示,零一万物在模型训练时没有急于做 Scale up、推出第一款模型,而是选择重点提升数据质量,在基础能力建设完毕后,模型 Scale up 都会变得非常顺畅。


零一万物将提升数据质量作为高优先级事项,进行了科学的数据质量控制。目前已经搭建起了高质量数据的生产管线,能够在确保数据质量的前提下实现规模扩展。这些高质量数据成为 Yi-1.5 系列开源模型顺利实现代码、数学能力提升的基础条件。


以此次 Yi-1.5 系列开源模型迭代为例,增量预训练已经成为提高大规模语言模型(LLM)在特定领域表现的重要方面。找到训练数据的最佳混比是这次 Yi-1.5 模型训练的关键挑战。然而,探索不同数据混合对LLM的影响既耗时又费力,且在识别持续预训练最佳数据混合方面的研究有限,尤其是对于代码和数学推理等特定领域任务。为了解决这一挑战,模型训练团队在不同规模的各种数据混合上进行了实验,并总结出了一套针对继续预训练的经验。


为了充分释放预训练模型在聊天场景中的潜力,零一万物还创新了指令调优方法。根据观察到的指令调优 Scaling effect,零一万物从代码、数学、科学、工程、人文学科和通用聊天数据等诸多领域扩增指令调优数据,清楚地展示了 Scaling 的优势通过使用 300 万条人工标注和高质量的合成指令调优样本,团队在保持了 Yi 模型优秀的通用能力的前提下,进一步提高了模型在代码和推理等各个关键领域的表现。


在指令微调SFT阶段,基于开源数据,零一万物也开始尝试采用了新颖的合成数据方案,这大大降低了数据构建成本。


Yi-1.5 系列的成功实践再次证明了零一万物在模型训练方面决策的正确性,也让团队看到,Yi-Large 或更大尺寸模型的上限还可以更高,在数据构建和训练过程还存在着优化空间。高质量、低成本的数据生产管线将会在后续多个模型的训练中得到复用,也预示着零一万物的数据构建成本与模型训练成本将进一步降低。在追逐 TC-PMF 的行业竞争中,降低的模型训练成本将为零一万物赢得宝贵的时间窗口,支撑其在优势窗口期构建出新的竞争壁垒。


切换 Apache 2.0 许可证,国际社区好评


作为全球生态建设的重要一环,零一万物尤其重视 Yi 系列开源模型的开发者体验。具体实践中,此次 Yi-1.5 发布时,零一万物也选用了开发者最熟悉的宽松许可证—— Apache 2.0,引发了国际开源社区的热烈讨论和一致好评,这是零一万物面向全球、拥抱开源的具体行动。


“我们相信开源开发者生态依赖于口碑,国内生态需要更多中立角色,以开发者为中心进行良性竞争。海外开发者更注重体验,无论是使用开源模型还是 API,都追求良好体验。”零一万物开源负责人林旅强表示,“我们真诚地希望,升级后的 Yi-1.5 系列开源模型能够为大家带来真正的价值。”



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询