AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大模型训练十戒
发布日期:2024-06-02 08:19:50 浏览次数: 1669


今天看到一个很有意思的东西,言简意赅,字字玑珠。加了包大人的注解,与大家分享。

新造的LLM,感谢尊者开悟~

1.切勿微调(Thou Shalt Not Fine-Tune):尽量写prompt,利用大模型本身的能力zeroshot,必要时辅以少量样本(few-shot examples)或检索增强生成(RAG)。微调成本高、速度慢且复杂,仅在确实需要时才进行。

注解:在一些接近大模型通用能力的场景上,随着模型基础能力的增强,微调的必要性越来越低。如果最近使用过gpt4o的接口的话,一定会被其拥有3.5的速度和4.5的效果震撼到,真的,如无必要,无需微调。

2.务必调调prompt(Thou Shalt Write a Freaking Prompt):用一个prompt创建一个baseline,并通过写prompt证明这个场景或者任务是可行的。如果写prompt就可以达到基本要求,那么微调可以进一步提升;如果prompt不起作用,微调成功的可能性就很低

注解:同第一条,相信大模型,如果你的任务与大模型本身的能力接近,不如好好调调prompt。

3.好好搞数据(Thou Shalt Review Thy Freaking Data):如果必须微调,确保你完全理解你的数据。大力修正问题数据。数据质量直接决定模型质量。

注解:数据决定了效果的上限,而模型能力只是逼近这个上限。这个机器学习老话,在大模型微调上同样适用。

4.用真实的数据(Thou Shalt Use Thy Actual Freaking Data):确保训练数据尽可能接近生产环境中模型将处理的数据。即使存在一些不完美的数据也没关系,只要整体分布一致和正确就可以。

注解:同上一条,同分布也是机器学习古老的训诫,在大模型微调中也是如此,有真实的数据,一定要用真实的数据,除非万不得已,再去蒸馏GPT4的数据。

5.必须保留测试集(Thou Shalt Reserve a Test Set):始终保留一部分数据用于测试,以评估模型的性能。

注解:就算评估是盲人摸象,你要带着尺子去摸。

6.必须选择合适的模型(Thou Shalt Choose an Appropriate Model):模型参数越多,训练就越昂贵且速度越慢。根据任务和预算选择适当的模型。不要使用过大的模型,也不要使用过小的模型。规模和参数量要匹配任务难度。

注解:参数量,数据量匹配任务难度,在所有的神经网络监督微调任务中都适用。

7.必须小步快跑评估(Thou Shalt Write Fast Evals):编写快速计算的评估指标,可以自动化计算的指标,不管是来源于规则或者模型,以便快速迭代。

注解:高频自动化评估,可以及时earlystop和监控模型异常,提高效率。小步快跑带给你更高频的刺激,从心理学上也应如此,干活儿更有干劲。

8.必须慢工细活评估(Also, Thou Shalt Write Slow Evals):花点时间编写更全面,更可靠的评估标准和评估指标,别管这些指标比较麻烦,设置要推理更大的reward模型,或者需要人工标注。都可以,目的是为了更深入地了解模型的性能。

注解:评估做不好的话,会影响实验效率,实验效率可以折算成单位时间的算力消耗, 可以推导出评估做不好 = 费钱费时。所以你做实验慢了,相当于比别人少了GPU。openai不仅仅卡多,还有实验效率倍增的buff,相当于 卡 * 效率倍数。

9.不要即发即弃(Thou Shalt Not Fire and Forget):不要执行一次性的模型训练后就结束。持续优化模型和pipeline。

注解:把流程串起来,形成pipeline,能更科学和高效地做事。

10.别太认真(Thou Shalt Not Take the Commandments Too Seriously):不要死板地遵循这些建议。根据具体情形调整建议的适用性。

注解:拥抱变化,大模型更应如此。尤其是有openai这样的存在。




原文地址:https://docs.google.com/presentation/d/1IIRrTED0w716OsU_-PL5bONL0Pq_7E8alewvcJO1BCE/edit#slide=id.g2c28ff05645_0_0

文章还提到了一个有趣的事实,即作者使用Gemini工具来总结这篇文章。

相关文章

大模型的微调数据选择技巧(三)

大模型的微调数据选择技巧(二)

大模型微调数据选择和构造技巧

如何从零训练多模态大模型(预训练方向)

大模型预训练中的数据处理及思考

如何从零开始训练大模型(预训练方向)

从头预训练一只超迷你 LLaMA 3

大模型落地实用主义思考

一文逮尽知名开源大模型作弊!训题库...

大模型测试集作弊?ICLR论文将leak一网打尽!

大模型reward model的trick

大模型比赛kaggle Prompt Recovery方案解读

大模型微调经验和认知

大模型训练loss突刺原因和解决办法

大模型用8个7B超越70B的方法

大模型/AIGC/Agent必读百篇文章获取

大模型在任务型对话上有机会吗

国内AI大模型已近80个,哪个最有前途?

大模型如何修复badcase

大模型中的Scaling Law计算方法

垂直领域大模型落地思考

大模型的生产优化

大模型Kaggle比赛首秀冠军方案总结

大模型RLHF理论详细讲解

24家国内大模型面经

大模型面试八股含答案

大模型无标注对齐RLAIF讲解

大模型训练为什么用A100不用4090

大模型百川2技术报告细节分享

大模型来自面试的一些体会和分享

判断场景是否适合大模型

大模型微调技术报告汇总

大模型的幻觉问题

从零训练大模型教程

领域/场景大模型也太难训了吧

大模型开源社区的原子弹Llama2

大模型训练的一些坑点和判断

大模型RLHF的trick

大模型评测,也太难了吧

大模型面试八股

大模型微调样本构造的trick

大模型训练太难了!




53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询