微信扫码
与创始人交个朋友
我要投稿
文章的出发点:LLMs通常被训练为通用工具,但在实际应用中,它们往往需要针对特定用户或任务进行调整。现有的方法如sft或rl,需要大量的数据集,这对新任务来说成本过高。本文通过少量用户提供的监督数据来快速定制和对齐大型语言模型,以满足特定用户或任务的需求。
文章标题:Show, Don’t Tell: Aligning Language Models with Demonstrated Feedback
https://arxiv.org/html/2406.00888v1
https://github.com/SALT-NLP/demonstrated-feedback
循环3,4,5,伪代码如下图:
DITTO 性能相对较高的原因之一是它通过生成比较使用的数据远多于 SFT。另一个是,在某些情况下,online imitation learning 比 SFT形式的 demonstrator 表现得更好。
迭代次数1->4,逐渐变优;增加negative sample,2->10逐渐变优;增加演示样本数量,逐渐边优,但是收益越来越低。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-19
o1发布后,信息量最大的圆桌对话:杨植麟、姜大昕、朱军探讨大模型技术路径
2024-09-19
杨植麟、姜大昕、朱军云栖激辩:我们对大模型发展的预测,都过于保守了
2024-09-19
大模型Agent:人工智能新前沿的深度解读
2024-09-19
LlamaIndex报告:未来Agentic App,不仅是RAG
2024-09-19
从案例分析到客户沟通:AI提示词如何优化律师工作流程?
2024-09-19
o1 能带我们走进 AGI 吗?
2024-09-19
端到端的 NL2SQL 引擎: Super-Analysis 震撼来袭,一个不同于市面已有产品的存在
2024-09-19
解锁医疗新未来:Sunsimiao-7B 中文医疗大模型震撼登场
2024-07-18
2024-03-30
2024-04-26
2024-04-11
2024-05-06
2024-06-12
2024-07-09
2024-05-09
2023-07-01
2024-07-25
2024-09-19
2024-09-19
2024-09-19
2024-09-19
2024-09-18
2024-09-18
2024-09-18
2024-09-18