微信扫码
添加专属顾问
我要投稿
“指令微调过程中,是否需要mask掉提示词部分的损失?”这似乎是个很常见的问题,很多训练仓库里边这部分输入的label都会改成-100,计算损失的时候,忽略这部分。当然也有的仓库会计算这部分,比如trl里边比较早的一些例子。
针对这种冲突,当然有一些研究给出了一些实验结果,如下图为,qlora中的一个对比图,发现只在target上训练上可以获得更好的效果。相对来说,这些实验因为都是一些附加实验,所以不够深入,今天的分享的文章深入探讨了这个问题。
简洁版结论:
名词定义:损失同时考虑prompt+response,称为IM(instruction modelling);损失只考虑response,称为IT(instruction tunning)
通过在 21 个不同的基准测试中进行实验,作者发现 IM 方法在许多情况下都能有效地提升 LMs 在自然语言处理(NLP)任务(例如 MMLU、TruthfulQA 和 HumanEval)以及开放式生成基准测试(例如 MT-Bench 和 AlpacaEval)上的性能。特别是在 AlpacaEval 1.0 上,IM 方法在最有利的情况下能够将模型性能提升超过 100%。
文章&实验代码仓库:
https://arxiv.org/pdf/2405.14394
https://github.com/ZhengxiangShi/InstructionModelling
简而言之,作者发现,在指令调整过程中同时考虑指令和输出,有效地提高了语言模型的性能,尤其是在数据资源受限或指令较长而输出较短的情况下。可能跟一些认知有些冲突,但是尝试一下可能是有意义的,毕竟这个跟数据集大小和长度都有关系。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-03
最好用的OCR来了?Mistral AI OCR介绍
2025-04-03
2个百度T11推出超级智能体火爆硅谷!免费使用无需邀请码,靠AI搜索功底估值已破38亿
2025-04-02
Transformer到底解决什么问题?
2025-04-02
AI大模型的2种模型能力Function call 和ReAct
2025-04-02
Playwright + DeepSeek实战:如何让AI“看懂”网站页面内容?自动定位页面元素?
2025-04-02
AI Agents的未来是事件驱动的
2025-04-02
MCP 之后,软件行业的新蛋糕与新危机
2025-04-01
MCP模型上下文协议详解(附参考资料)
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-02
2025-04-02
2025-04-01
2025-04-01
2025-04-01
2025-03-30
2025-03-30
2025-03-28