支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


小参数出奇迹!360开源最强14B推理模型,端侧部署春天来了?

发布日期:2025-03-17 13:15:29 浏览次数: 1582 来源:AI大模型工场
推荐语

360开源14B推理模型,或将引领端侧部署新革命。

核心内容:
1. Geoffrey Hinton关于端侧大模型的预言及其行业趋势
2. DeepSeek降低AI成本的尝试与局限性
3. 360开源Light-R1系列模型的技术突破与行业影响

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家



人工智能教父深度学习三巨头”Geoffrey Hinton曾擘画端侧大模型的终极蓝图:会有一个阶段,一旦某个AI系统训练完毕,我们会将其运行在非常低功耗的系统上,所以,如果你想让你的烤面包机能和你对话,你需要一个只花费几美元的芯片,而且它能运行像ChatGPT这样的程序。


虽然这种“极致轻量化部署”目前还不能实现,但如今,行业进化的趋势却将这一预言逐步应验,即致力于为大模型“降本增效”,以较小的模型实现更低的部署成本、更快的响应速度以及更广泛的应用场景。其中,最引起轰动的莫过于DeepSeek。



DeepSeek通过创新的训练策略显著降低了AI模型的训练和推理成本,其V3模型仅用约2000张H800 GPU训练,总成本不超过600万美元,使得AI开发、使用门槛大幅降低。然而,即使是DeepSeek把AI成本“砍一刀”后,对于中小企业应用部署而言仍有一定门槛——部署满血版DeepSeek动辄需要数万元硬件投入,如果“退而求其次”部署低参数版本,性能也随之直线滑坡。



如今,难题迎刃而解。如果说DeepSeek把AI成本“砍了一刀”,那么360此次出手,可以说让DeepSeek应用成本进一步“击穿地心”:



前两天,360智脑开源最强14B数学推理模型Light-R1-14B-DS及Light-R1-32B、Light-R1-7B-DS系列,并把SFT和RL的数据、代码、技术报告一起开放。其中,Light-R1-7B-DS作为最强7B推理模型,无需量化即可端侧部署;Light-R1-14B-DS数学成绩超越绝大多数 32B 级模型以及DeepSeek-R1-Distill-Llama-70B,将轻量高效能优势发挥到极致……



360是如何做到的?此次360高调出手“砍一刀”,又将引发哪些蝴蝶效应?




Light-R1系列何以成「最强」:

多项技术突破,低成本复现DeepSeek-R1




360智脑团队近期开源的Light-R1系列模型,标志着推理模型轻量化技术的几大突破。首先,性能碾压更高参数模型,经得起AIME24这种“难度天花板”级的硬核数学竞赛检验,在低成本复现 DeepSeek-R1 方面迈出了重要一步:



此前,行业尽管已经有许多开源玩家尝试在 72B 或更低的模型上复现 DeepSeek-R1,但在艰难的数学竞赛AIME24 上没有一个能取得与DeepSeek-R1-Distill-Qwen-32B 的得分72.6 类似的表现,值得一提的是,360的工作在 QWQ-32B发布之前就已开源了。



最终,Light-R1-14B-DS数学成绩超越绝大多数 32B 级模型,在数学竞赛AIME24、AIME25中分别取得74.0、60.2的高分,双双超越了 DeepSeek-R1-Distill-Llama-70B同期分数(70分、54.1分)。



其次,是领域专精与泛化能力的双重突破,“既要又要”照进现实。经GPQADiamond 评测一役,铁板钉钉的结果显示,其具有“举一反三”的能力:



虽然Light-R1系列仅使用数学数据训练,但模型在其它能力上仍然表现出强泛化性。在包含生物学、化学和物理学领域博士级科学问题的GPQADiamond 评测集测试中,7B 得分49.4、 14B 得分61.7,分别超过了 DeepSeek-R1-Distill-Qwen-7B的49.1、DeepSeek-R1-Distill-Qwen-14B的59.1,表明即使只训练单项也不会对模型造成灾难性遗忘。




这验证了 “深度领域优化提升泛化能力” 的可能性:通过高难度数学问题的强化学习,模型形成了结构化推理的底层能力,有望迁移至科学计算、金融建模等需严格逻辑的场景。



值得一提的是,此次360低成本复现 DeepSeek-R1,是经得起检验的真·复现,带着“不怕验、随便验”的硬核底气:



此前一些玩家在拿 DeepSeek-R1 作为实验对照组时,始终无法复现其在报告中的分数,普遍评测分偏低,然后就偷偷蛐蛐别人测的不准,自己的得分就是比别人高,被网友调侃为“人不行怪路不平”。




360基于deepscaler-release中的DeepScaleR的评估代码,能够完全复现 DeepSeek-R1 QWQ-32B 公布的评测结果(得分相差在1分左右),同时,评测脚本也已经在 github 上开源,可以去复现,就是这么刚!



那么,360具体是如何实现的?采取了哪些技术路径?




解码「最强」背后的技术路径:

多阶段课程vs强化学习诞生卷王!




我们先来看从零复现了满血版 DeepSeek-R1-32B:在Light-R1-32B 的训练上,360采用了 SFT 和 DPO 的课程学习方法。



其中,SFT(Supervised Fine-Tuning)即监督微调是基于标注数据的精细调优方法,通过高质量标注样本(如专家解题步骤)对预训练模型进行领域适配,大体分为两阶段:先使用基础数学数据(筛选自AIME old等各种开源数据集),构建初步推理能力;阶段2则聚焦高难度数据,针对性强化复杂问题解决能力。



通俗来说就是由浅入深,“先学新概念1再学新概念2”。



同时,SFT具有领域快速适配优势:仅需少量标注数据即可将通用模型转化为数学专精模型,同时,稳定性高,标注数据的确定性避免了强化学习的探索风险,适合冷启动阶段,成本可控。



而DPO (Direct Preference Optimization)则是一种通过人类偏好数据直接优化模型输出的方法,其优势主要体现在简化流程、提升效率、降低资源消耗等方面。



接着,Light-R1-14B-DS 上,360将DPO替换为 GRPO,上演“小模型玩转强化学习”:GRPO 是 DeepSeek 团队提出的强化学习方法,过“群体智慧”替代单一价值模型评估策略,核心优势在于提升训练效率、增强稳定性提升复杂任务推理能力,数学推理、代码生成等需深度逻辑的任务。



这让行业看到,强化学习(RL)永不过时——通过“试错-反馈”机制模拟人类学习过程,通过试错和延迟奖励机制,自主习得最优决策策略以最大化长期累积奖励,是解决复杂序列决策问题的核心技术。目前开源项目中,能够完全成功复现强化学习效果的主要是 DeepScaleR-1.5B-Preview,但是这只是一个 1.5B大小的模型,在更大的模型上,目前很少有。



而360偏偏迎难而上,以Light-R1-14B-DS上进行了大规模强化学习训练,训练数据来自OpenR1-Math-220k等公开数学数据集。功夫不负有心人,在 RL 训练过程中,终于观察到了预期的现象:响应长度与验证分数同步提升。这意味着其通过学习不断“打怪升级”,最终顺利完成从“初学者”到“深度推理学霸”的能力跃迁。



这是行业首次成功在 14B 级别推理模型上应用RL并取得明显效果,在进一步提升推理准确率、使其长板更长的同时,也保持其他技能不掉点。



技术的硬核突破扇动“蝴蝶翅膀”,在应用端,正掀起变革风暴。




DeepSeek开好头,360掀起冲击波:

AI普惠未来可期




《孙子兵法》中,讲过“以正合,以奇胜”:正者,兵之常道;奇者,兵之变道,在战争中,既要遵循常规,又要敢于出奇制胜。



AI落地战也是一样,一味卷参数并不是落地的最优解。此前,DeepSeek在成本下降方面带来的冲击波就引起广泛讨论:创新不一定需要依赖最先进的硬件,而是可以通过巧妙的工程设计和高效的训练方法来实现。正如经济日报指出,这种技术突破降低了AI大模型的硬件门槛和能源消耗,为AI技术的普及铺平了道路。较小的模型意味着更低的部署成本、更快的响应速度以及更广泛的应用场景。



诚如所言,如今,360进一步DeepSeek-R1的复现成本降低,本质上是以算法创新带来算力平权:当14B模型性能超越70B级商业产品,意味着中小企业无需依赖天量算力即可获得顶级推理能力,无需购置专业GPU服务器,仅用消费级设备即可完成模型调试与应用开发。


使得医疗、教育、制造等长尾场景的开发者能以低成本部署轻量级、高性能AI,带来革命性的变化,也解决了部分场景的网络延迟与数据隐私问题——避免敏感数据上传云端,同时满足低成本与合规性需求。



这也与行业发展趋势、政策导向相吻合,与2025年政府工作报告提出的“激发数字经济创新活力”目标高度契合。报告指出,持续推进“人工智能+”行动,将数字技术与制造优势、市场优势更好结合起来,支持大模型广泛应用,大力发展智能网联新能源汽车、人工智能手机和电脑、智能机器人等新一代智能终端以及智能制造装备。



一言以蔽之,推动AI大模型从实验室走向产线、消费终端等实体场景,加码端侧AI应用落地,让AI战力接入前线已成大势所趋,而此次Light-R1-7B-DS作为最强7B推理模型,无需量化即可端侧部署,就是AI领域头部玩家交出的时代答卷之一。



滴水藏海,天地纳音,轻量级浪潮甚至有望引发连锁反应:



商业模式创新维度,企业可将节省的90%云服务费用投入细分场景优化,形成“低成本——高利润——再研发”正循环;而学界也可以通过360开放的模型、数据、代码,深度解析其训练轨迹推动可解释性研究,让更多“Light-R1 式”项目得以涌现,形成技术迭代的“飞轮效应”。



正如北京大学新结构经济学研究院院长、教授林毅夫曾预言,中国在新兴产业领域具有显著优势。第四次工业革命中的人工智能、大数据和生命科技等方面,中国与发达国家共同起步:“发挥超大规模市场、产业配套、制度和人才优势,中国有望在2049年建成社会主义现代化强国。”



如今,种种AI普惠举措,正与战略目标形成深度共振:涓涓细流的坚持终将汇集成海,在时代的云图里书写智能新篇。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询