我要投稿

作者投稿|PROMST：一种自动化优化大语言模型在解决多步骤任务中的提示词框架

发布日期：2024-04-10 21:23:49 浏览次数： 2944

作者：SparksofAGI

微信搜一搜，关注“SparksofAGI”

PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Preference Alignment

PROMST：一种自动化优化大语言模型在解决多步骤任务中的提示词框架‍‍‍‍‍‍‍‍‍

‍‍‍‍‍

1）本论文提出了一种名为PROMST (PROmpt Optimization in Multi-Step Tasks)的框架，旨在建立一种自动化框架来优化大语言模型（LLMs）在解决多步骤任务中的提示词（prompts）。

2）该工作的核心在于，通过引入人类反馈、得分预测模型以及修改评分规则，以优化多步骤代理任务（Multi-Step Agent Tasks）中的提示词。得分预测模型使用小模型来评判大模型，利用了weak-to-strong generalization的思想。该工作还表明了修改评分规则可以使优化以后的prompt更符合人类的偏好(human preference alignment)。

3）PROMST是第一个探究多步任务中动态优化提示词的工作，对未来研究开辟了新方向，并为未来研究提供了代理人/机器人在面对多步骤任务的基准。

背景与动机

1. 研究表明，LLMs在给定任务上的表现极具敏感性，依赖于提示的设计，而提示工程的目标是创建能够充分利用LLMs能力的提示。

2. 由于受限于黑盒模型参数的无法访问，自动提示优化技术主要集中在搜索庞大的离散化语言输入空间。

3. 现有的自动提示优化方法在处理简单的单步骤任务（如数学计算、指令引导和情感分析）方面表现不错，但面对多步骤任务时仍存在挑战。

PROMST框架

1. PROMST方法考虑到在多步骤任务中，正确引导LLM来决策需要长篇幅（300+token）的深度优化提示，这对于当前自动化方法是一个明显的难点。

2. PROMST框架融合了人类分析错误的能力和相关领域知识，利用这些优势反馈给模型，这一过程涉及人类对每种错误类型设计反馈规则。

3. 此外，PROMST引入了任务得分规则的设计，允许人类根据LLMs在任务中的表现为其设计得分，并使用这些得分来在线微调得分预测模型，高效选择优质的提示。

实验效果

1. 在八个多步骤任务环境中的实验结果显示，人类反馈和得分模型的结合显著提高了提示搜索过程的质量，平均性能提升了28%。

2. 结果证实了学习得分预测模型能够提升任务的总体性能。

3. 另外，修改得分函数有助于将优化后的提示与用户偏好对齐。

重要结论

1. PROMST方法在复杂的多步骤任务中的引导性能一般优于代表性的基线方法。

2. 通过引入人类反馈和学习得分预测模型的融合，可以在没有直接计算任务得分的高成本情况下，有效地从提示候选中抽样。

3. 论文提出了PROMST工作的局限性，即自动提示优化需要大量的计算资源和LLM API查询，并提出通过微调得分预测模型来平衡API查询次数和设备上的计算，从而选择好的提示候选。

撰文：戴剑波；编辑：戴剑波

未经本公众号授权不得转载，欢迎转发。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-08

Dify中的MCP相关插件及FastMCP服务实现原理

2025-07-08

🧠提示词的魔力：Prompt 为什么能控制大模型？

2025-07-08

一文看懂“提示词” vs “提示词工程” vs “上下文工程”

2025-07-08

实测17种提示词工程技术

2025-07-08

Google: Prompt Engineering白皮书

2025-07-08

再见，Prompt Engineering；你好，Context Engineering

2025-07-05

别空谈Prompt了！未来真正有用的是上下文工程！

2025-07-04

PromptMuse：让你的提问，成为开启 AI 潜能的钥匙

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

CoT思维链技术解读及ToT、GoT、PoT等提示词工程框架介绍

2025-05-08

别再和AI说废话了，谷歌的6个prompt黄金法则让你的AI秒变学霸

2025-05-08

Claude 系统提示词泄露！

2025-05-08

Google 官方提示工程 (Prompt Engineering)白皮书完整翻译和 PDF 下载

2025-04-11

我整理了10+提示词，这才是Qwen3的正确打开姿势

2025-05-07

小白也能写出专业文生图Prompt，超棒的提示词框架+AI生图工具分享。

2025-04-14

【万字长文】一文搞懂：提示词和提示词工程

2025-05-19

字节新产品太强了，让你轻松成为提示词大师！

2025-06-12

重磅！OpenAI 官方发布 GPT-4.1 最强提示词指南，AI 能力全面升级！

2025-04-16

还在用“请帮我生成...”？谷歌发布提示词秘籍，让AI秒懂你！

2025-05-07

大家都在问

🧠提示词的魔力：Prompt 为什么能控制大模型？

2025-07-08

Prompt 到底有啥用？为什么写得好能提升 AI 效果这么多？

2025-07-04

什么是提示词设计？

2025-06-23

为什么大家很少提及Prompt（提示词）了?

2025-06-14

为什么不会提示词（Prompt）用不好AI？

2025-06-04

Claude 4 核心提示词曝光｜最懂提示词的大模型公司，现在怎么写 Prompt？

2025-06-02

字节跳动深度研究框架DeerFlow提示词解析 - 如何通过提示词工程驱动Multi Agents？

2025-05-17

AI创业者｜你辛苦写的提示词，是否属于商业秘密？

2025-05-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部