作者投稿|PROMST:一种自动化优化大语言模型在解决多步骤任务中的提示词框架
PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Preference Alignment
PROMST:一种自动化优化大语言模型在解决多步骤任务中的提示词框架
1)本论文提出了一种名为PROMST (PROmpt Optimization in Multi-Step Tasks)的框架,旨在建立一种自动化框架来优化大语言模型(LLMs)在解决多步骤任务中的提示词(prompts)。
2)该工作的核心在于,通过引入人类反馈、得分预测模型以及修改评分规则,以优化多步骤代理任务(Multi-Step Agent Tasks)中的提示词。得分预测模型使用小模型来评判大模型,利用了weak-to-strong generalization的思想。该工作还表明了修改评分规则可以使优化以后的prompt更符合人类的偏好(human preference alignment)。3)PROMST是第一个探究多步任务中动态优化提示词的工作,对未来研究开辟了新方向,并为未来研究提供了代理人/机器人在面对多步骤任务的基准。1. 研究表明,LLMs在给定任务上的表现极具敏感性,依赖于提示的设计,而提示工程的目标是创建能够充分利用LLMs能力的提示。2. 由于受限于黑盒模型参数的无法访问,自动提示优化技术主要集中在搜索庞大的离散化语言输入空间。3. 现有的自动提示优化方法在处理简单的单步骤任务(如数学计算、指令引导和情感分析)方面表现不错,但面对多步骤任务时仍存在挑战。1. PROMST方法考虑到在多步骤任务中,正确引导LLM来决策需要长篇幅(300+token)的深度优化提示,这对于当前自动化方法是一个明显的难点。2. PROMST框架融合了人类分析错误的能力和相关领域知识,利用这些优势反馈给模型,这一过程涉及人类对每种错误类型设计反馈规则。3. 此外,PROMST引入了任务得分规则的设计,允许人类根据LLMs在任务中的表现为其设计得分,并使用这些得分来在线微调得分预测模型,高效选择优质的提示。1. 在八个多步骤任务环境中的实验结果显示,人类反馈和得分模型的结合显著提高了提示搜索过程的质量,平均性能提升了28%。2. 结果证实了学习得分预测模型能够提升任务的总体性能。3. 另外,修改得分函数有助于将优化后的提示与用户偏好对齐。
1. PROMST方法在复杂的多步骤任务中的引导性能一般优于代表性的基线方法。2. 通过引入人类反馈和学习得分预测模型的融合,可以在没有直接计算任务得分的高成本情况下,有效地从提示候选中抽样。3. 论文提出了PROMST工作的局限性,即自动提示优化需要大量的计算资源和LLM API查询,并提出通过微调得分预测模型来平衡API查询次数和设备上的计算,从而选择好的提示候选。撰文:戴剑波;编辑:戴剑波
未经本公众号授权不得转载,欢迎转发。