微信扫码
添加专属顾问
我要投稿
探索开源大模型微调的高效之路,LLaMA-Factory助你轻松实现。核心内容:1. LLaMA-Factory框架介绍和安装指南2. 通过webui启动框架的简便方法3. 模型下载与训练数据集准备技巧
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .
llamafactory-cli webui
pip install modelscope
#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen2.5-1.5B-Instruct', cache_dir='/root/autodl-tmp/model')
print("模型下载完成!")
[
{
"instruction": "hi",
"input": "",
"output": "Hello! I am {{name}}, an AI assistant developed by {{author}}. How can I assist you today?"
},
{
"instruction": "hello",
"input": "",
"output": "Hello! I am {{name}}, an AI assistant developed by {{author}}. How can I assist you today?"
}
]
[
{
"instruction": "国际经济与贸易专业的就业前景是怎样的?",
"input": "",
"output": "国际经济与贸易专业的就业前景较为广阔。随着全球经济一体化的深入发展,国际贸易交流不断增加,对专业人才的需求也日益增长。毕业生可以在跨国公司、国际贸易企业、金融机构以及政府部门等领域找到就业机会。此外,随着国家对外贸易政策的不断调整与改善,国际经济与贸易专业的就业前景也将更加乐观。综合来看,国际经济与贸易专业具有较高的就业率和就业质量,为毕业生提供了良好的职业发展空间。",
"history": [
[
"从事国际经济与贸易专业的人可以有哪些工作机会?",
"国际经济与贸易专业拥有广泛的就业领域。毕业生可以在进出口公司、物流公司、保险公司、银行中介类货代以及报关员、报检员等职位工作。此外,他们还可以在政府机构如外贸局、外汇局、商检局、海关等部门从事涉外经济贸易的实际业务、管理、调研和宣传策划工作。国际经济与贸易专业还培养了高素质的复合型涉外经贸人才,使他们具备从事国际经贸工作的能力和竞争力。"
]
]
},
{
"instruction": "列出三种创造性的解决问题的技巧。",
"input": "",
"output": "1. 头脑风暴: 这种技巧旨在通过鼓励尽可能多的想法来产生新颖的解决方案。与团队成员合作,不管想法多么离奇都应该提出来。最终,团队成员可以一起筛选想法,找到可行的解决方案。\n2. 逆向思维: 这种技巧要求您从问题的根源入手,从结局反推回去。基于这种思想,您可以回顾失败的原因,找到问题的根本所在,并找到更好的解决方案。\n3. 生命周期思考: 这种技巧倡导从全局的角度思考问题。它要求您考虑问题的各个环节,从问题的产生,发展到最终的解决方案。每一个阶段都需要考虑,确保解决方案是全面和持久的。",
"history": []
}
]
• 训练时,输入分别与原始权重和两个低秩矩阵进行计算,共同得到最终结果,优化则仅优化A和B
• 训练完成后,可以将两个低秩矩阵与原始模型中的权重进行合并, 合并后的模型与原始模型无异
loar训练的主要配置如下 :
点击【开始】按钮进行训练,注意到曲线基本接近水平即可停止训练
每次训练完之后的权重都会存储在saves路径下面:
pip install jieba
pip install nltk
pip install rouge_chinese
"predict_bleu-4": 88.66503116406967
"predict_rouge-1": 93.22028249312557
"predict_rouge-2": 90.35579468377637
"predict_rouge-l": 92.24518854262145
假设参考答案是:
“小明今天去了图书馆看书。”
“小明去图书馆。”
BLEU:较高,因为每个词都精确命中参考词,n-gram 匹配好。
ROUGE:较低,因为参考中很多内容没有被“召回”(比如“今天”、“看书”)。
“小明今天去了图书馆看书,还去超市买了东西。”
BLEU:较低,因为多了很多不在参考中的内容,精确度下降。
ROUGE:较高,因为参考中的内容几乎都被覆盖了,召回率高。
机器翻译、对话生成(短文本) | |
文本摘要、长文本生成 | |
生成质量综合评估 |
pip install bitsandbytes
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-24
自主构建MCP,轻松实现云端部署!
2025-04-23
Unsloth:提升 LLM 微调效率的革命性开源工具
2025-04-23
超越 DevOps?VibeOps 引领 AI 驱动的开发革命
2025-04-23
大模型想 “专精” 特定任务?这 3 种 Addition-Based 微调法别错过
2025-04-23
重参数化微调:揭秘LoRA家族让大模型训练成本暴降的方法
2025-04-23
为什么全参数微调能让大模型从“通才”变“专才”?
2025-04-22
使用 LLaMA-Factory 微调 llama3 模型
2025-04-22
费曼讲解大模型参数微调——小白也能看懂
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-23
2025-04-20
2025-04-01
2025-03-31
2025-03-20
2025-03-16
2025-03-16
2025-03-13