微信扫码
添加专属顾问
我要投稿
漫画形式轻松讲解模型蒸馏,带你快速掌握AI技术新概念!核心内容:1. 模型蒸馏的定义与应用场景2. 大模型与小模型的对比分析3. 模型蒸馏的实际操作流程和效果差异
❷根据硬标签和软标签,对比结果,结合权重,得到学生模型最终的损失值;
❸对学生模型进行参数更新,以得到更小的损失值。
不断重复这个过程❶→❷→❸,就相当于反复刷题,每刷一轮,就找找学生答案和老师答案的差距,及时纠正。
经过多轮以后,学生的知识就会越来越扎实。
扩展阅读
一、关于不同的蒸馏路线
前面讲的这种模型蒸馏,只是最常见、最通用的一种方式,叫做知识蒸馏,也叫输出层蒸馏。
RAG:直译过来叫做“检索增强生成”。相当于这题我不会,但是我有“小抄”,我回答的时候,就看一眼小抄,然后再综合我脑子里的已有知识,进行回答。
RAG,不是训练,不改变大模型的“脑回路”,但可以作为外挂,提升大模型回答问题的精准性。适用于企业自身积累了大量知识库文档,通过RAG的方式,与大模型关联。
这样,大模型在回答问题的时候,会先检索知识库,进行精准回答。
三、举两个现实的例子
举个例子,现在特大号公众号后台的自动回复,其实就是腾讯混元大模型,通过RAG的方式,连接了特大号所有的历史文章,作为知识库使用。
当你提问的时候,它就会检索这些历史文章,然后再回答问题。
再举个例子,前几天被热传的李飞飞团队仅花费50美元,就训练出一个比肩ChatGPT o1和DeepSeek R1的模型,其实是一种误读。
李飞飞团队的s1模型,其实是基于通义的开源模型Qwen2.5-32B进行的微调,而微调所用的数据集,其中一部分蒸馏自Google Gemini 2.0 Flash Thinking。
所以,这个模型的诞生,是先通过知识蒸馏,从Gemini API获取推理轨迹和答案,辅助筛选出1000个高质量的数据样本。
然后,再用这个数据集,对通义Qwen2.5-32B进行微调,最终得到性能表现不错的s1模型。
这个微调过程,消耗了50美元的算力费用,但这背后,却是Gemini和Qwen两大模型无法估量的隐形成本。
这就好比,你“偷了”一位名师解题思路,给了一个学霸看,学霸本来就很NB,现在看完“思路”,变得更NB了。
严格来讲,Gemini 2.0作为闭源商业模型,虽然支持获得推理轨迹,但原则上是不允许用作蒸馏的,即便蒸馏出来也不能商用。不过如果仅是发发论文、做做学术研究、博博眼球,倒也无可厚非。
当然,不得不说,李的团队为我们打开了一种思路:我们可以站在巨人的肩膀上,用四两拨千斤的方法,去做一些创新。
比如,DeepSeek是MIT开源授权,代码和权重全开放,而且允许蒸馏(且支持获取推理轨迹)。
那么对于很多中小企业来讲,无异于巨大福利,大家可以轻松通过蒸馏和微调,获得自己的专属模型,还能商用。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-15
单卡复现 DeepSeek R1 Zero教程来了!
2025-02-15
申请API-KEY,通过接口使用DeepSeek服务
2025-02-15
DeepSeek零门槛三步极速部署指南,注册秒过,对话零延迟!
2025-02-15
大模型应用部署过程中流量管控的常见需求和应对方案
2025-02-15
AI应用开发先了解这些概念:智能体、LLM、RAG、提示词工程
2025-02-15
腾讯云TI平台和HAI部署DeepSeek的步骤及其区别
2025-02-15
Chain-of-Action (行动链):从Agent工作流到Agent模型
2025-02-14
使用 Apache Dubbo 释放 DeepSeek R1 的全部潜力
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-11
2024-07-26
2024-07-09
2025-01-27
2024-12-29
2025-02-01
2025-02-10
2025-02-10
2025-02-09
2025-02-05
2025-01-24
2025-01-22
2025-01-14
2025-01-12