我要投稿

大模型微调应用实践，没那么简单，看看曾经踩过的坑

发布日期：2024-04-23 07:04:49 浏览次数： 2683 作者：余生不设限

随着各大模型开源免费商用，应该会有更多的企业参与到大模型的微调应用，也许会碰到各种问题。刚好近期对大模型实践方面踩过的坑进行了总结，分享出来，希望可以给同行些参考，加快大家迭代的速度，如对您有一定的帮助，那就更好了。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

一、大模型训练稳定性方面

单机训练不起来，环境配置问题：

GPU的CUDA驱动需和深度学习框架版本拉齐，否则模型跑不起来

如GPU的CUDA verison是11.4，那就选择pytorch的版本为1.12.1。

多机训练不通，DeepSPeed配置问题：

多机间NCCL 不能打通

解决方法：

新建 .deepspeed_env 文件，写入如下内容

NCCL_IB_DISABLE=1

NCCL_DEBUG=INFO

NCCL_SOCKET_IFNAME=eth0

NCCL_P2P_DISABLE=1

多机训练效率不如单机：

多机训练可以跑起来，但是在多机上模型训练的速度比单机上还慢。

通过查看服务器相关监控，发现是网络带宽打满，上不去了，其他系统监控基本正常。原理初始的多机之间的网络带宽是64Gps，后面把多机之间的网络带宽调整为800Gps，问题解决。

实验验证，多机训练的效率，和使用的机器数成线性关系，每台机器的配置一样，如一台GPU机器跑一个epoch需要2小时，4台GPU机器跑一个epoch需要半小时。除了训练速度符合需求，多机训练模型的loss下降趋势和单机模型训练的趋势基本一致，也符合预期。

样本量规模增大，训练出现OOM错：

模型训练的样本数量从10万，增大300万，训练任务直接报OOM了。

解决方案，对数据并行处理，具体实现参考海量数据高效训练，核心思想自定义数据集本次的主要目标是使向量化耗时随着处理进程的增加线性下降，训练时数据的内存占用只和数据分段大小有关，可以根据数据特点，灵活配置化。核心功能分为以下几点:

均分完整数据集到所有进程（总的GPU卡数）
每个epoch训练时整体数据分片shuffle一次，在每个进程同一时间只加载单个分段大小数据集
重新训练时可以直接加载向量化后的数据。

‍‍‍‍

训练过程，报找不主机：

解决方法，deepspeed的关联的多机的配置文件，Hostfile 配置中使用ip，不使用hostname。

训练加速：

可采用deepspeed进行训练加速，目前行业开源的大模型很多都是采用的基于deepspeed框架加速来进行模型训练的。如何进行deepspeed训练，可以参考基于deepspeed构建大模型分布式训练平台。

deepspeed在深度学习模型软件体系架构中所处的位置：‍

DL model—>train opitimization(deepspeed)—>train framework —> train instruction (cloud)—>GPU device

当然需要对比验证deepspeed 的不同参数，选择合适的参数。分别对比stage 2,3进行验证，在GPU显存够的情况下，最终使用stage 2。

推理速度验证：

大模型的推理性能和输出答案的字数相关，大概是输出100字答案需要1秒。具体细节参考大模型推理性能评测。

结论：A100的推理耗时约是V100推理耗时的60%，A800和A100基本相近。

二、大模型训练效果方面

样本优化：

对于输入历史对话数据进行左截断，保留最新的对话记录。
去掉样本中明显的语气词，如嗯嗯，啊啊之类的。
去掉样本中不合适的内容，如AI直卖，就不应出现转人工的对话内容。
样本中扩充用户特征标签，如年龄，性别，地域，人群等

模型参数迭代实验：

验证历史对话轮次是否越长越好，通过训练两个模型，控制变量max_source_length｜max_target_length，对训练好之后的模型从Loss、Bleu指标、离线人工评估等角度进行对比分析。

结论：从人工评估少量样本以及loss下降来看，历史对话长度1024比512长度好，后续如果训练可能上线模型，可以扩大到1024长度。

三、大模型应用方面

大模型输出合规化：

根据用户的输入问题内容，大模型进行生成回答的内容，但是生成的回答，不直接对外输出给用户。需要进行合规的处理，因为大模型的输出内容不可控，对于严肃的场景，以免引起用户的投诉。所以需要进合并处理。

目前处理的方法，模型生成内容，再把这些内容生成向量，再查询话术向量库，得到最相似的话术。如果查询结果或相似得分比较阈值低或者查询不到结果，则走兜底策略。兜底策略按用户所在的对话阶段，实验不同的兜底话术。或者使用万能兜底话术。

应用模式变更：

机器人销售场景的case:

纯大模型AI模式，最初直接是大模型机器人直接和用户对话，全流程都是大模型对话走流程。

对比之前的AI（小模型意图、话术策略）+人工模式，发现之前的初始阶段通过率高些，初步判断可能是用户说的太发散，大模型不好收敛。

就调整为AI+大模型AI模式。这样前面的AI主要是小模型意图、话术策略模式，任务引导更明确。大模型可以更好的和有意向的用户进行交互，更容易引导用户成单。

四、大模型训练平台建设方面

资源管理：‍‍‍

开始是命令行训练模式，算法人员多了，对GPU资源的使用有点混乱了。

切换到可视化web交互模式，建立统一的可视化pipeline配置训练任务。

统一GPU资源管理，资源分配，资源回收，资源监控。

大模型训练平台架构：

大模型平台的建设的细节参考大模型平台的建设文章。‍‍‍‍‍‍‍

大模型训练pipleline流程：

大模型训练pipleline的实现细节可参考基于kubeflow流水线构建大模型训练平台实践

总之，随着各大模型开源免费商用，更多的企业会加大对大模型应用的投入，大模型的应用发展也会更加繁荣。虽然本文提到了一些大模型应用实践中踩过的一些坑，后面应该会有更多的坑需要去踩，踩的坑多了，说明大模型的应用就更加成熟了，持续关注大模型的发展和应用实践。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-06

比Kimi还好用？AI写作神器「橙篇」来势汹汹欲夺长文创作之未来

2024-07-06

暴走WAIC：跟AI+教育有关的，都在这儿↑

2024-07-02

【研究成果】ArchGPT：利用大语言模型支持传统建筑遗产的更新与保护

2024-06-28

所有男生女生，AI 卖货主播来咯！

2024-06-28

AI+医疗专题报告：院内场景丰富，AI 全面赋能医疗健康领域

2024-06-20

AI 背后 B 端设计师的机会

2024-06-20

30 款让教师工作更轻松的 AI 工具

2024-06-13

知识图谱(KG)和大模型(LLMs)双轮驱动的企业级AI平台构建之道暨行业调研

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

大模型在医学领域的应用

2024-05-03

使用LM Studio与Anything LLM基于Llama-3高效构建本地知识库系统

2024-04-28

5个VS Code顶级AI插件，助你如虎添翼

2024-05-25

关于人工智能在金融领域的应用研究

2024-07-18

AI 大模型在金融行业应用深度分析 2024

2024-04-30

突发！ChatGPT紧急下线联网模式

2023-07-06

36氪开的AI淘宝店，经营了2个月之后

2023-06-30

从国内外10个智能体案例，看AI Agent在教育领域的应用

2024-10-17

第一个HR AI助手上线了！

2023-06-29

警惕！“AI换脸”诈骗出现涉政苗头~

2023-07-03

大家都在问

2025年关于医疗+AI的最新思考（3）看研究报告去创业？

2025-03-21

2025年关于医疗+AI的最新思考（6）对医生最最重要的那件事，已经发生了？

2025-03-21

如何利用DeepSeek帮我做金融理财?

2025-03-20

对话Deepseek（8）AI编程会让标品SaaS走向何方？

2025-03-17

摩根大通CEO戴蒙：落地450个AI应用靠什么？

2025-03-10

DeepSeek 热潮下，SaaS 行业的未来在哪？

2025-02-18

上半年拿到投资的 18 家 AI 制药，他们都在做什么？

2025-02-18

为什么使用AI诊断癌症如此困难？

2025-01-23

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB