我要投稿

聊聊如何在内网下构建大模型微调环境

发布日期：2024-08-06 08:30:36 浏览次数： 3082

作者：阿郎小哥的随笔驿站

微信搜一搜，关注“阿郎小哥的随笔驿站”

背景

AI服务器在内网，除了预先安装的python及docker等基本软件包外，别的一概没有。从零基于Llama-Factory搭建大模型微调环境。

在VMWare上搭一个同样服务器版本（例如centos）的虚拟机，用于联网下载依赖包；后续再拷贝过去。

docker

在运维同事打好docker镜像后，开发编写docker-compose单独起一个docker环境。在这里建议是以自己的名字命名文件夹下起docker，这样的话，docker-compose挂载的volume就比较干净，直接在自己名字的目录下。

docker-compose如下：

文件夹结构如下，这是我自己名字下的包文件：

虚拟环境venv

进入docker，基于python3默认的venv模块，单独起一个python虚拟环境，隔离包的依赖。

如下：

python -m venv apienv

激活环境：

source ENV_DIR/bin/activate

pip包下载

在内网环境下，如果没有镜像库支持，是无法像平时一样一键pip intasll xxx安装。因此就要手动搞了。

有两种方案：

先pip download再pip install --no-index
直接pip install xxx --target /path

当然包的下载是在venv虚拟环境下，隔离开别人的包依赖，防止覆盖或版本不对。

我个人用的命令如下：

# 指定源下载包
pip install pandas -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

# 将本地目录打包，解决llamafactory-cli命令报错的问题
pip install -e . --no-build-isolation --no-index --find-links=./

# 指定源下载requirements依赖，并指定下载目录
pip download -r requirements.txt -d /home/sitepackage/ --index-url http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com 

# 指定源下载 指定包 ，并制定下载目录
pip3 download -d /home/sitepackage/ gradio==4.21.0 -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

# 离线安装 download 下载好的依赖包
pip install --no-index --find-links=/home/sitepackage/ -r requirements.txt

LLaMA-Factory报错

llamafactory-cli不存在

新版Llama-Factory改为了llamafactory-cli命令训练微调。但该命令默认是不存在的，需要在LlamaFactory源码的目录下运行 pip install -e .即可，官方文档已经写了需要事先运行该命令。但在离线环境下，就不能直接这么写，上述的命令列表已给出命令。不过当时还是出现了新的问题：

见issue。

是LlamaFactory自身的问题，重新拉去最新的代码即可。只要按照如上步骤，先download包，然后install，最后执行：

pip install -e . --no-build-isolation --no-index --find-links=/home/sitepackage/

即可生成llamafactory-cli命令。

docker共享内存不足

报错如下：

 NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1970, unhandled system error (run with NCCL_DEBUG=INFO for details), NCCL version 2.20.5
 System call (e.g. socket, malloc) or external library call failed or device error. 
 error:
 while creating shared memory segment /dev/shm/nccl-jURtqQ (size 5767520)

docker默认的内存是 64MB，在执行llamafactory-cli train xxx时，如果当前机器是多卡，那么默认是分布式训练。docker共享内存不足，调大docker内存即可。在docker-compose文件中，增加配置：

shm_size: 16GB

当然也可以指定单卡训练，如果单卡的显存够的话，命令如下：CUDA_VISIBLE_DEVICES=0 llamafactory-cli train xxx

参考：https://github.com/NVIDIA/nccl/issues/342^[1]https://www.jianshu.com/p/3ba9a016dc82^[2]

transformers版本不对

报错如下：

ValueError: too many values to unpack (expected 2)

重新安装一下transformers，其指定版本为4.41.2。

总结

LlamaFactory新版更新后，还是比较方便，只是说llamafactory-cli命令的确是有点蒙，踩个坑就好了。

对于LlamaFactory微调来说，本身不难，毕竟都是配置；主要是在内网环境下的依赖包拉取安装是真麻烦，但其实也还好。走一遍的话，还是可以学到很多的。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-14

多轮 Agent 场景下，滴滴的 EAGLE-3 训推加速实践

2026-05-06

谁说 Mac 只能写代码？Google 官宣：M 芯片本地微调 Gemma 4 时代开启！

2026-04-20

用 Unsloth 微调 Embedding 模型，让你的 RAG 检索不再答非所问

2026-04-15

ComfyUI v0.19.0 更新：大量新节点、新模型、新修复与性能优化全面落地，工作流与训练能力再升级

2026-04-13

Agent 持续学习落地路径：先做 Traces，再做 Context，最后才微调模型 | Jinqiu Select

2026-03-23

养死四只龙虾的小白有感

2026-03-22

Mistral Forge 的真正意义：企业AI从“租用”走向“拥有”

2026-03-21

马斯克再次站台Kimi，扒掉了Cursor 500亿估值的底裤

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

ComfyUI v0.19.0 更新：大量新节点、新模型、新修复与性能优化全面落地，工作流与训练能力再升级

2026-04-15

MiniMax M2.7 炸场！自己训自己，8 项基准硬刚 GPT-5 和 Opus 4.6

2026-03-19

马斯克再次站台Kimi，扒掉了Cursor 500亿估值的底裤

2026-03-21

Mistral Forge 的真正意义：企业AI从“租用”走向“拥有”

2026-03-22

养死四只龙虾的小白有感

2026-03-23

Agent 持续学习落地路径：先做 Traces，再做 Context，最后才微调模型 | Jinqiu Select

2026-04-13

用 Unsloth 微调 Embedding 模型，让你的 RAG 检索不再答非所问

2026-04-20

谁说 Mac 只能写代码？Google 官宣：M 芯片本地微调 Gemma 4 时代开启！

2026-05-06

多轮 Agent 场景下，滴滴的 EAGLE-3 训推加速实践

2026-05-14

大家都在问

DeepSeek 发布新论文，提出全新 MHC 架构，有何创新与应用前景？

2026-01-02

LoAR做Fine-Tuning微调原理到底是什么？

2025-11-19

如何将 AI 代码采纳率从30%提升到80%？

2025-09-25

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw