我要投稿

大模型训练十戒

发布日期：2024-06-02 08:19:50 浏览次数： 2070 作者：包包算法笔记

今天看到一个很有意思的东西，言简意赅，字字玑珠。加了包大人的注解，与大家分享。

新造的LLM，感谢尊者开悟～

1.切勿微调（Thou Shalt Not Fine-Tune）：尽量写prompt，利用大模型本身的能力zeroshot，必要时辅以少量样本（few-shot examples）或检索增强生成（RAG）。微调成本高、速度慢且复杂，仅在确实需要时才进行。

注解：在一些接近大模型通用能力的场景上，随着模型基础能力的增强，微调的必要性越来越低。如果最近使用过gpt4o的接口的话，一定会被其拥有3.5的速度和4.5的效果震撼到，真的，如无必要，无需微调。

2.务必调调prompt（Thou Shalt Write a Freaking Prompt）：用一个prompt创建一个baseline，并通过写prompt证明这个场景或者任务是可行的。如果写prompt就可以达到基本要求，那么微调可以进一步提升；如果prompt不起作用，微调成功的可能性就很低

注解：同第一条，相信大模型，如果你的任务与大模型本身的能力接近，不如好好调调prompt。

3.好好搞数据（Thou Shalt Review Thy Freaking Data）：如果必须微调，确保你完全理解你的数据。大力修正问题数据。数据质量直接决定模型质量。

注解：数据决定了效果的上限，而模型能力只是逼近这个上限。这个机器学习老话，在大模型微调上同样适用。

4.用真实的数据（Thou Shalt Use Thy Actual Freaking Data）：确保训练数据尽可能接近生产环境中模型将处理的数据。即使存在一些不完美的数据也没关系，只要整体分布一致和正确就可以。

注解：同上一条，同分布也是机器学习古老的训诫，在大模型微调中也是如此，有真实的数据，一定要用真实的数据，除非万不得已，再去蒸馏GPT4的数据。

5.必须保留测试集（Thou Shalt Reserve a Test Set）：始终保留一部分数据用于测试，以评估模型的性能。

注解：就算评估是盲人摸象，你要带着尺子去摸。

6.必须选择合适的模型（Thou Shalt Choose an Appropriate Model）：模型参数越多，训练就越昂贵且速度越慢。根据任务和预算选择适当的模型。不要使用过大的模型，也不要使用过小的模型。规模和参数量要匹配任务难度。

注解：参数量，数据量匹配任务难度，在所有的神经网络监督微调任务中都适用。

7.必须小步快跑评估（Thou Shalt Write Fast Evals）：编写快速计算的评估指标，可以自动化计算的指标，不管是来源于规则或者模型，以便快速迭代。

注解：高频自动化评估，可以及时earlystop和监控模型异常，提高效率。小步快跑带给你更高频的刺激，从心理学上也应如此，干活儿更有干劲。

8.必须慢工细活评估（Also, Thou Shalt Write Slow Evals）：花点时间编写更全面，更可靠的评估标准和评估指标，别管这些指标比较麻烦，设置要推理更大的reward模型，或者需要人工标注。都可以，目的是为了更深入地了解模型的性能。