我要投稿

从0训练一个大模型需要多少钱？为什么大多数企业选择微调+RAG这条路

发布日期：2024-04-17 20:12:24 浏览次数： 3290 作者：极客e家

相信大家都知道从0要训练一个通用的大模型（From Scratch）是特别费钱费时间的，那到底从0训练一个千亿级通用大模型要多少钱？下面给大家普及一下：

训练LLaMA-2-70B需要多少钱？

LLaMA-2 70B是Meta于2023年7月18日发布的一款开源通用大模型，经过实际测评，大家普遍认为不如ChatGPT-3.5（参数量级175b）。我们先看下关于LLaMA-2-70B训练的一些相关信息：

1、训练后的LLaMA-2-70B，模型文件大概有140GB，700亿级参数。

2、训练时，需要抓去最少10TB的网络数据集。

3、需要1千万亿亿FLOPS。如果12天可以训练完，需要6000块A100 GPU、想要一个月训练完，需要2400块A100 GPU。如果你只有1块 A100，想要训练完，需要200年。

4、总体费用花销，需要最少200w美元。

所以根据上面LLaMA-2-70b的训练信息大概就可以看到，想要训练一款通用性质的大模型，对标ChatGPT-3.5的话，无论是数据的采集还是模型的训练，都是需要花费非常高的成本。而ChatGPT-3.5参数量级是175b，是LLaMA-2-70b的两倍还多，ChatGPT-3.5的训练成本最少我推测也的500w美元。而现在大家用的ChatGPT-4更不用说了，它是一个MoE性质的混合超级大模型，由各个子模型组成，每个子模型最起码都是千亿级别的参数量级。由于Chat-GPT4并未公布详细参数量级，但是据传达到了万亿级参数，所以训练成本推测最少也的3000w美元。

大家看了上面的数据，相信应该对于从0开始训练一个通用级别的大模型大概需要花费多少成本应该有数了。

基于开源大模型进行微调+RAG才是首选

从0开始训练一个通用领域大模型，除了一些大厂玩的起，相信大多数企业不会选择这条路。而不同的企业往往需要的是一个符合其业务场景在某个垂直领域的大模型，所以基于一个开源的大模型，进行微调+RAG或许才是更实际的一种选择，企业可以通过微调这些模型来适应自己的特定需求，使用RAG可以进一步提高模型的性能，通过从大型文档数据库中检索信息来增强生成的内容，这样可以使模型在没有直接训练数据的情况下也能够生成高质量的回答或内容。但即使是基于一个开源的大模型去微调，那也需要去慎重的选择，而选择标准，往往还是会落在算力上。下面几个影响因素，大家可以参考下：

1、关于微调数据+RAG知识库的准备，企业自身结合其业务场景准备数据即可。

2、根据企业可以接受的算力选择大模型，这个才是根基。你总不能说你只有一张A100卡，直接上马斯克的Grok-1（3140亿参数的混合专家模型），你连推理都玩不起来，更别说基于它去微调了。所以算力是最重要的因素。

3、同时你还需要考虑微调的策略，微调的策略也有很多种，基于所选的基本模型架构和业务需要，难易度和效果更是不同（如果没有足够的技术能力，不推荐选择MoE性质混合专家模型作为基础模型）。你可以选择最简单的P-tuning方式，或者稍微复杂一些的PEFT策略中的LoRA，更或许是OpenAI的监督学习+RLHF强化学习（奖励模型那套）的策略。

4、不选择微调，直接外挂RAG，这种成本最低。

----------------

最后总结一下，选择是否采用基于开源大模型进行微调+RAG策略时，企业还是应该综合考虑自身的技术能力、算力资源以及业务需求。对于那些资源有限但希望利用大模型能力的企业来说，这无疑是一种高性价比的选择。然而，为了最大化微调后模型的性能，企业可能还需要投入额外的努力来优化微调过程和RAG的使用策略。现在，这种策略已成为市场上企业使用的最主流策略。