AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


作者投稿|PROMST:一种自动化优化大语言模型在解决多步骤任务中的提示词框架​
发布日期:2024-04-10 21:23:49 浏览次数: 1861



PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Preference Alignment

PROMST:一种自动化优化大语言模型在解决多步骤任务中的提示词框架‍‍‍‍‍‍‍‍‍

‍‍‍‍‍





1)本论文提出了一种名为PROMST (PROmpt Optimization in Multi-Step Tasks)的框架,旨在建立一种自动化框架来优化大语言模型(LLMs)在解决多步骤任务中的提示词(prompts)。

2)该工作的核心在于,通过引入人类反馈、得分预测模型以及修改评分规则,以优化多步骤代理任务(Multi-Step Agent Tasks)中的提示词。得分预测模型使用小模型来评判大模型,利用了weak-to-strong generalization的思想。该工作还表明了修改评分规则可以使优化以后的prompt更符合人类的偏好(human preference alignment)。
3)PROMST是第一个探究多步任务中动态优化提示词的工作,对未来研究开辟了新方向,并为未来研究提供了代理人/机器人在面对多步骤任务的基准。

背景与动机
1. 研究表明,LLMs在给定任务上的表现极具敏感性,依赖于提示的设计,而提示工程的目标是创建能够充分利用LLMs能力的提示。
2. 由于受限于黑盒模型参数的无法访问,自动提示优化技术主要集中在搜索庞大的离散化语言输入空间。
3. 现有的自动提示优化方法在处理简单的单步骤任务(如数学计算、指令引导和情感分析)方面表现不错,但面对多步骤任务时仍存在挑战

PROMST框架
1. PROMST方法考虑到在多步骤任务中,正确引导LLM来决策需要长篇幅(300+token)的深度优化提示,这对于当前自动化方法是一个明显的难点。
2. PROMST框架融合了人类分析错误的能力和相关领域知识,利用这些优势反馈给模型,这一过程涉及人类对每种错误类型设计反馈规则。
3. 此外,PROMST引入了任务得分规则的设计,允许人类根据LLMs在任务中的表现为其设计得分,并使用这些得分来在线微调得分预测模型,高效选择优质的提示。

实验效果
1. 在八个多步骤任务环境中的实验结果显示,人类反馈和得分模型的结合显著提高了提示搜索过程的质量,平均性能提升了28%。
2. 结果证实了学习得分预测模型能够提升任务的总体性能
3. 另外,修改得分函数有助于将优化后的提示与用户偏好对齐

重要结论
1. PROMST方法在复杂的多步骤任务中的引导性能一般优于代表性的基线方法
2. 通过引入人类反馈和学习得分预测模型的融合,可以在没有直接计算任务得分的高成本情况下,效地从提示候选中抽样
3. 论文提出了PROMST工作的局限性,即自动提示优化需要大量的计算资源和LLM API查询,并提出通过微调得分预测模型来平衡API查询次数和设备上的计算,从而选择好的提示候选。

撰文:戴剑波;编辑:戴剑波

未经本公众号授权不得转载,欢迎转发。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询