我要投稿

训练大模型，究竟需要多少钱？

发布日期：2024-04-18 17:50:55 浏览次数： 5963

作者：PC集群

微信搜一搜，关注“PC集群”

为了掌握大型语言模型（LLM）如何运作，必须先弄清楚其背后所需的计算力。GPU是构建模型的关键组件，但与此同时，显卡的内存大小也扮演着重要角色。拿Meta推出的LLaMA 2模型为例，它提供了多种规模的版本，包括70B、13B、7B参数量的模型，而不同模型运作需要占用的GPU内存也有所差异。例如，70B模型要求320GB的GPU内存，13B模型需要50GB，7B模型则要30GB。

通过使用量化技术，可以减小模型对内存的需求，尽管这样做可能会轻微影响模型的精度。这样的技术允许在只损失部分精度的情况下将内存需求减少到一半，甚至更少。因此，如果你愿意接受性能稍微降低的机器人对话，你可以不用显卡，仅依赖CPU来运行LLaMa 2模型。

Meta发布的这个开源LLM项目（LLaMa 2）具有诸多优势，例如能够根据个人需求重训练或调整模型。这为各种使用情景开辟了广阔天地。

但需要注意的是，训练和调整LLM是需要大量投资的。以OpenAI为例，其模型调整的成本介于每小时34至103美元之间。那么，如何估算调整LLaMa 2模型的费用呢？

从LLaMa公布的数据来看，7B模型的训练时长约为184,320小时，70B模型则需要长达1,720,320小时。假如使用每小时一张A100 GPU计算，单单运行一个7B模型就需要超过21年的时间！Meta为了训练这些模型，利用了大批量的A100 GPU，其中7B模型的花费约为27.6万美元，而70B模型则高达170万美元。

A100与RTX4090在计算力上差距不大，然而，显存容量与带宽的不同对于运行这些模型来说至关重要。

在PyTorch的训练和测试环节中，A100的处理能力是4090的140%，而H100的处理效率则是4090的160%至250%。

关于估算训练算力，我们可以通过用6倍的模型参数量乘以训练数据的Token数量（Flops）来进行预测。以Google的Colab平台来看，Colab Pro会员每月支付10.49美元可获得100个计算单元，而Pro+会员每月支付52.49美元则可得到500个计算单元。根据平台的算力消费数据，A100 GPU每小时大约消耗13计算单元，折合成金钱约为1.36美元。

Meta公司在开发LLaMA-2-7B聊天项目时，运用了27,540个高品质的监督式微调样本来增强模型质量，这使得模型能够更准确地理解和回答问题。

针对台湾市场，LLaMA基于LLaMA 2进行了全面微调以提升对繁体中文的处理能力，其中包括两个关键阶段：

在预训练阶段，使用了八个A100 GPU进行了为期两周的训练，让LLaMA 2学习中文的基础知识和语法规则。

在指导微调阶段，又使用了八个H100 GPU进行了12小时的细致调校。在这一过程中，模型通过处理Stanford-Alpaca提供的179个问题，以及涵盖174种类型的高品质多样数据集进行学习，显著提高了性能。这些数据集通过具体指示、详细解释、扩充知识来帮助模型学习，仅用1000条数据进行指导性的微调就可使得模型的表现有了明显提升。

模型同样接受了自我指导训练，即Self-Instruct。Stanford Alpaca从ChatGPT中抽取52,000条数据样本，并搭载四块A100 GPU在一天之内完成了对7B LLaMA的训练，使其达到了与text-davinci-003相似的水准。

在费用方面，使用ChatGPT API约需500美元，而运用A100 GPU的成本则以每小时1美元来计算，假如用四块A100进行全天训练，总费用大约100美元。

通过这些数据，我们可以对于大型语言模型训练和微调所涉及的成本有一个大致的理解。确实，这其中的资金投入可谓不小，需要不断的尝试和调整。虽然LoRA微调模式可能仅需少量资源就能达成不俗的成效，有时候即便使用4090显卡也足以满足需求，但投资于设备和计算资源仍旧是一个需要考虑的经济负担。