我要投稿

大模型的微调数据选择技巧（二）

发布日期：2024-04-08 12:13:33 浏览次数： 2703 作者：包包算法笔记

今天包大人继续讲大模型训练中微调数据选择技巧，其二。

在上一篇文章里，我们回答了几个关于大模型数据方面的问题

1.数据要不要都去标注，标的比较慢咋办？

2.我已经有一批标好的数据了，再去选哪些数据送标注比较好？

3.能不能总结出一套数据构造方面自动化的方法？

传送门大模型微调数据选择和构造技巧。

那么我们再来一个新的问题，如果给定了一批标注数据，如何选出其中“最好的”，“最适合”训练的数据子集呢？

类似于传统机器学习的特征选择，从N个特征里选出n个，提升模型效果，本身这个问题是NP难的，我们有没有什么近似的，高效的，贪心的方法能解决这个问题。大模型选数据也一样，不可能所有的组合都尝试一遍。

这篇文章《One Shot Learning as Instruction Data Prospector for Large Language Models》就提出了一个方法，可以从一堆数据中，把精华选出来，使用精华部分训练就够了，这个方法称为Nuggets。

具体是怎么做的可以参考这个图。

Nuggets看着挺复杂的，其实很简单，首先Nuggets有三个输入，一个输出。

三个输入分别是：第一，一个大模型，用来评估数据好坏；第二，Predefined Task Set 用来辅助评估数据好坏；第三，Instruction Set就是等待筛选的大数据集。

输出目标就是Instruction Set的优秀子集，被称为Golden Set。

一句话说明白它是怎么做的。

它认为，如果一条数据作为one-shot的那个shot，即作为一条例子作为参考，能使得大模型有这个参考后，比zeroshot提升很多，就认为这是一条高质量的数据。

类似机器学习场景，多了一个特征，auc暴涨，那这个特征就是个好特征。

整体的方法论就是这样，至于评估LLM输出的好坏，其实可以选取的角度很多，比如最简单的PPL。

TASK就是Predefined Task Set中的测试数据，文中设定包含1000条左右的指令测试数据。需要对这1000条数据有了one-hot参考后的PPL变化情况统计，数一下有百分之多少变好了，就作为这条数据A的Golder Score。

然后把Instruction Set的每一条数据都算出来他的Golder Score，从高到低排序，选top N作为最优子集即可。

结果比较惊人，在Alpaca数据中，选出top 1%的数据，就能取得和使用全部Alpaca类似的效果！

思路简单明了，但是有可以改进的地方。

首先是Predefined Task Set辅助数据集，这个随便选1000个就是最好的吗？

作者实验发现，使用Kmeans聚类100个类后，每个类别中心选1个，最后100个有代表性的效果是最好的。

整体看来，这个方法还是非常直观的，大家可以把思路拓宽一点，延伸到特征选择中的那些方法，看能否迁移过来，其核心就是如何低成本的度量一条数据有用。期待你的讨论。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

大模型是否有必要本地化部署？

2025-04-28

给 AI 小白的说明书：什么是 Manus？AI Agent为什么重要？

2025-04-28

MCP爆火背后：AI Agent的生产力时代来了吗？

2025-04-28

DeepSeek本地化部署有风险！快来看看你中招了吗？

2025-04-28

从MCP到超级Agent：这场AI生产力革命将淘汰谁？

2025-04-28

AGI｜智能体总忘事？Letta框架如何让AI告别"金鱼记忆"？

2025-04-28

杨植麟再掀 AI 风暴！Kimi-Audio 如何让机器听懂人类 “弦外之音”？

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB