微信扫码
添加专属顾问
我要投稿
费曼技巧式解读,让大模型参数微调变得简单易懂。 核心内容: 1. 家庭学习场景,类比大模型参数微调 2. 大模型神经元计算细节,电报码编码解码过程 3. 学生如何向老师学习,小模型参数学习范式
人物组(1):老师、学生。
人物组(2)爸爸、妈妈、我,妹妹。
任务一:妈妈监管我的学习,我学习理科,我主要就是寻找窍门,提升解题的技巧和方法,想在考试中获得高分,这样妈妈就会多给我零花钱。
任务二:爸爸监管妹妹的学习,妹妹学习文科。妹妹主要就是背,就是把书本上学到的知识都背下来,通过记忆内容来学习。
任务二: 爸爸监管妹妹的文科学习爸爸开始监管妹妹学习文科背诵书本知识记忆标准答案完成文科学习任务一: 妈妈监管我的理科学习妈妈开始监管我学习理科寻找解题窍门提升技巧方法考试获得高分获得更多零花钱
大家都使用过ChatGPT,DeepSeek,我们只要简单的对大模型网页输入一个问题,就会马上得到答案。所以,输进去的是文字,大模型回答的也是文字。那么大模型这个大脑是咋想完就说出答案的呢?我们先看下面这个图,主要是蓝色的步。
神经元计算细节示例:今=[1,0,0...]深度计算示例:[0,1,0...]=天(1) 输入语句(2) 汉字编码(3) 神经元计算(4) 电报码解码(5) 输出结果
因为大语言模型里的神经元的数量是很大的,大语言模型使用数量巨大的神经元来模拟人脑的几百亿个神经元。这样,大语言模型就类似人脑。而每个神经元里其实都是一个线性或者非线性的计算公式,这个公式里包含着公式系数,如。几百亿个神经元,就是几百亿个类似的公式,通过加减乘除或者指数方式拼成了一个更加巨大的公式,然后就有了几百亿甚至上千亿个系数。这些系数就是大模型的参数。
这不是一个严谨的说法,但我们只要知道大语言模型是由公式和公式系数构成的就好。公式决定了大语言模型思考问题的规律,也就是大语言模型是按照数学计算公式来思考问题的,而系数决定了大模型思考问题的配置,思考方式+思考配置,最终确定了大语言模型的输出内容。
我们知道了大语言模型可以思考问题,但是,大语言模型怎么学习(训练)呢?其实大语言模型学习和我们人类学习的方法差不多,只不过大语言模型学习的方法更加笨拙一些,不如人类的学习方法灵活。人类就是想学就学,碰见什么东西学什么?从来不固定的学习方法,但是机器不一样,谁让它是机器呢。
下图展示了一个学生(知识少的小语言模型)如何跟着老师(知识多的大语言模型)学知识的过程。
①右图:模型参数学习/蒸馏范式。从下往上看。
如果一个没有多少知识的学生想要学到更多的知识,他或者跟着老师学,或者自己学。跟着老师学最后的结果就是老师头脑里的知识被迁移到了学生的头脑(小语言模型),自己学,其实也是要读书,书也是曾经的老师们创造的知识。
无论怎么样,都可以按照图中的方法,假如学生准备学习数学知识,那么可以找很多精题试卷,分别让学生作答,老师作答。将作答的试卷结果进行比较,必将比较的结果以不同的方式反馈给学生。
理科学习模式文科学习模式差异大差异小差异增加差异减小典型模型:ChatGPT/LLaMA典型架构:DeepSeek-R1/O3开始背诵输入标准答案机械记忆检查差异强化惩罚减少惩罚加强死记硬背开始学习探索解题策略自主推理成绩对比奖励减少奖励增加调整方法早期大模型新一代模型
实际上,监督学习对应着提升学生的记忆内容的量,而强化学习对应着提升学生逻辑推理能力。到底使用哪种方法进行学习,要看我们学习的问题是属于要记忆才能学好的,还是要学会推理才能学好的?文科就是属于要记忆的,理科即是必须学会推理的。
回头来,两种不同的学习方法,对应了学生的两种不同思考模式。也对应了两种不同的更新小语言模型参数的算法。
我们要全流程的培养学生,就要考虑学生从学习方法,到将来就业,这是负责任的教育态度,是对未来负责的态度。我们要培养一个学生,一定是有目的的培养学生,我和妹妹的学习方法只是一方面。也要选择合适的学习资料和学习工具,将来为毕业生提供合适的岗位。
④确定学习方法陈述性程序性知识类型监督学习强化学习③配置学习工具教学平台Jupyter训练框架PyTorch部署环境Docker②选择学习资料开源数据集精选教材通识基础Wikipedia专业技能行业文档①确定培养目标文字创作艺术设计人才需求分析核心方向文本大模型多模态模型①确定培养目标②选择学习资料③配置学习工具④确定学习方法就业输出
对应大语言模型的学习流程,就对应以下四个步骤。
一、预训练模型选择
基于业务场景需求选择基础模型架构:
①文本大模型(适用于NLP任务)
②多模态大模型(适用图文生成任务)
二、专业数据处理流程
构建高质量训练数据集:
三、微调工具链配置
构建完整训练框架:
四、微调算法实现
实施两类主流训练方法:
(一)有监督微调(SFT)
流程:自定义数据集→交叉熵损失函数→分布式训练循环→评估指标验证(Accuracy/BLEU)→迭代优化
(二)强化学习微调(RL)
四阶段实施:
参考下图。
强化学习算法有监督学习算法模型微调四步法①基于业务需求选择预训练模型文本大模型多模态大模型②专业数据集开源专业数据集内部数据集真实场景数据(1)真实场景数据(2)真实场景数据(3)数据去重数据清理真实场景数据(4)格式化,向量化聚类算法多样性筛选标注生成THINK过程③基于数据集微调工具框架LLaMA-Factoryverl(字节开源)部署、推理工具(vllm、sglang)unsloth④主要微调算法流程有监督微调 SFT强化学习微调 RLHF,GRPO/PPO/DAPO预处理(自行收集和整理数据集)定义损失函数(Cross-Entropy)训练循环(PyTorch LightningDeepSpeed/Megatron)验证集评估(Accuracy/BLEU)模型迭代偏好数据收集(Human/AI标注对比)训练奖励模型(Reward Modeling)初始化策略模型(基于有监督学习模型)生成响应(Beam Search)奖励模型打分(RM Inference)策略优化(PPO/TRLRL4LMs)KL散度约束模型迭代
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-20
2025-04-01
2025-03-31
2025-03-20
2025-03-16
2025-03-16
2025-03-13
2025-03-13