我要投稿

指令微调数据的高效筛选方法-CaR（排序&聚类）

发布日期：2024-03-31 11:51:55 浏览次数： 2923 作者：NLP工作站

写在前面

大家好，我是刘聪NLP。

大模型时代，指令微调是必不可少的技能。那么如何使用更少的数据，调出更好地效果，更节省训练资源&成本呢？之前已经给大家分享过几篇数据筛选的方法：DEITA、MoDS和IFD。

今天给大家带来一篇通过专家模型排序和多样性聚类进行指令数据筛选的方法-CaR，全称《Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation》。

Paper: https://arxiv.org/abs/2402.18191
Github: https://github.com/IronBeliever/CaR

CaR方法的核心是利用少量专家对齐数据训练一个数据质量排序模型，进行数据质量排序，再利用聚类方法保证高质量数据的多样性，最终利用较小的代价完成模型高质量微调，如下图所示，CaR方法仅利用1.96%的数据就达到较为优异的效果。

方法

Ranking

排序阶段主要是为了进行指令数据的质量评估，利用Sentence BERT模型进行专家偏好模型训练，其中3751条专家审核数据来自CoachLM，为了保证数据质量，有精心挑选了修订前后有显著差异的2541条指令数据（根据编辑距离）。可以发现原始数据中会存在一些语义不流畅、歧义、冗余的现象，而专家修改过的数据更准确、简练，如下图所示。

PS：这里利用Sentence BERT模型做初始化，最终还是将instruction+input+output一起输入到模型中，进行回归打分。

对于排序模型，在测试集的准确率上达到了84.5%，而利用GPT-3.5 Turbo和gpt-4-1106-preview的准确率分别只有57.48%和63.19%，如下表所示。

其中GPT3.5或GPT4评分所需Prompt如下图所示。

Clustering

聚类阶段主要是为了进行指令数据的多样性保留，让指令微调数据涉及更多的任务，激发出原始语言模型更多的能力。利用sentence-transformers模型将指令数据映射到一个384维的向量空间上，再利用PCA降维保留95%的维度，最后利用K-Means算法进行向量聚类操作，簇的个数为178。

最后数据由打分排序后前Top-N1的指令数据和K个聚类簇中每个簇的Top-N2的指令数据总和再去重组成，即set(n1+k*n2)。

实验结果

测试数据包含Self-instruct中252条测试集、Vicuna中80条测试集、PandaLM中70条数据集、CoachLM中150条测试集。

在7B、13B、30B模型上对比Alpaca、Alpaca-PandaLM、Alpaca-cleaned、Alpagasus、Vicuna方法，结果如下表所示AlpaCaR方法在四个数据集上均由明显优势。

利用不同方式选取排序前9k的数据集进行模型训练，可以发现不同排序模型对测试集的评分与生成结果打分成正比。

数据质量分析，采用1k、2k-42k数据训练LLaMa-7B模型，发现随着数据数量的提高、整体数据质量下降，模型效果随着下降。

数据多样性分析，当从每个簇中选择1个指令数据时，模型效果最优。选择太多可能会影响数据的整体质量。

对比随机抽取结果，AlpaCaR方法更有竞争力。

成本分析，比较AlpaCaR相对于Alpaca和Alpagasus 在30B模型上进行指令评估和模型全参数微调的成本，对于API方法进行质量评估参考GPT4的官方定价，模型训练推理服务参考leadergpu上租赁成本。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

HR AI小科普——什么是MCP？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

为什么全参数微调能让大模型从“通才”变“专才”？

2025-04-23

RAG应用必备！10种向量数据库全解析、Weaviate、Milvus、pgvector、Qdrant等热门工具谁更强？

2025-04-22

18种RAG技术大比拼：谁才是检索增强生成的最佳选择？

2025-04-22

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部