AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


IBM深刻洞见:解锁企业界Prompt工程最佳实践
发布日期:2024-04-01 18:04:00 浏览次数: 1906






近期发表的IBM研究报告深入探讨了企业界Prompt工程的实践,为业界带来了全新的启示和思考。这项研究是IBM对现实世界中人们处理提示的倾向和实践的一次细致观察。该研究分析了企业环境中的分析了来自1712 名用户的数据集的提示会话。研究结果对于企业构建Prompt具有很高的参考价值。


Foto: Sean Gallup/ Getty Images

在当今人工智能浪潮中,大型语言模型(LLM)正成为企业提高效率、释放AI潜能的关键动力。与之密切相关的是Prompt工程,这一全新领域正在重塑人机交互的未来。IBM的这项研究包含大量有趣的信息,挑战了常见的假设。研究结果已经发布,我们细细品味,领略其中的精髓洞见:

题目:探索提示工程在企业中的实践

网址:https://arxiv.org/pdf/2403.08950.pdf


迭代优化成常态,上下文编辑占主导

Key Insights

PART 01

报告显示,Prompt工程绝非一蹴而就,而是一个极为耗时的迭代优化过程。研究人员分析了1712名用户的数据,平均每个编辑会话长达43分钟,而相邻两个Prompt版本间的修改时间仅50秒。这充分体现了Prompt优化的反复试错本质。

更加引人注目的是,上下文编辑成为最常见的优化环节,远超出指令编辑的频率。

上下文指的是提示语中包含的示例、背景信息等基础数据。用户往往通过循环修改上下文,来测试Prompt在不同情境下的表现,以确保其健壮性。这一发现颠覆了传统假设,即任务说明才是Prompt优化的重中之重。


模型切换与参数调优并重

Key Insights

PART 02


除了Prompt本身的编辑之外,参数调整也是工程过程中的关键一环。数据显示,93%的会话都涉及了参数改动,而最常更换的竟是所使用的LLM模型本身。平均每个会话会尝试3.6种不同模型,充分说明了在特定任务场景下,探索并挑选最优模型的重要性。

此外,最大输出长度和重复性惩罚(repetition penalty)也是调整的普遍对象。可见,用户不仅追求语义的准确性,也注重生成内容的长度和多样性,以期获得理想的输出效果。这也从侧面映射出企业对LLM应用的高标准要求。

考虑到模型变化的频率,研究人员深入研究并分析了在单次提示会话中使用了多少个模型。

一次会话中测试的模型平均数量为 3.6。这强调了能够轻松测试不同模型的重要性。关于部署应用本地个性化模型可以看看这篇付费文章:

本地离线生成式AI文生文全要素提效指南,更安全更经济更高效



多方位编辑与回滚不可忽视

Key Insights

PART 03


细致入微的编辑是Prompt工程的特色。研究发现,近四分之一的编辑涉及多处修改,平均约两处编辑同时进行。其中相当一部分涉及上下文和指令的同步修改。这种做法的合理性在于,更新上下文后,指令部分也要做出相应调整,否则可能会产生不一致的输出。

与此同时,11%的编辑是回滚到先前的版本,体现了试错的融入。研究还发现,负责处理未知情况的"handle-unknow"条目以及标签编辑最易被回滚。这表明这些指令对语义影响较大,编辑难度较高,往往需要多次修正才能达到预期效果。

  • 40% 的回滚都是针对 instructions:handle-unknown(“如果您不知道,请回复”)

  • 25% 的回滚与指令有关:输出长度

  • 24% 的回滚是针对标签编辑,18% 是针对角色编辑。

相比之下,对指令和任务等其他部分的编辑回滚频率要低得多(8-9%)。

考虑到这一点,让我们看一下上面的频率图,回滚率较高的组件编辑频率较低。用户可能发现编辑这些组件会导致更糟糕的结果,因此他们回滚了更改,然后编辑频率较低。


探索Prompt的主要组成部分

Key Insights

PART 04



这张图展示了大型语言模型Prompt中的不同组成部分及其描述和示例。它将Prompt分为以下几个主要部分:

1. instruction:task - 指定Prompt的目标或任务,以及与所需输出相关的其他细节。例如"根据文档回答问题"或"总结文档"。

2. instruction:persona - 指定LLM在生成输出时应扮演的角色或身份。例如"SQL专家"或"AI助手"。

3. instruction:method - 描述LLM应遵循的流程或方法来生成输出,例如"step-by-step"(逐步)。

4. instruction:output-length - 对输出长度的描述,如"50个单词"或"简洁"。

5. instruction:output-format - 指定输出应采取的形式,如JSON或段落。

6. instruction:inclusion - 描述输出应包括或不包括的内容,如"解释"或"来自提供文档的具体信息"。

7. instruction:handle-unknown - 描述如果LLM缺乏生成所需输出的知识时,应如何处理,如"如果你不知道,回复[...]"。

8. label - 提示语中用于标识元素的文本,如"Instruction:"或"<Context></Context>"。

9. context - 包括用于提供背景的示例、文档和输入查询。

10. other - 上述之外的其他内容。

此图总结了Prompt中不同组成部分的作用和示例,有助于构建清晰可视化且有目标的Prompt,以指导LLM生成所需的输出。

深入思考看到如此生动翔实的研究数据,不禁令人沉思企业中的Prompt工程实践远比想象的更加复杂和动态。高成本、高标准、高不确定性,共同打造了一个充满挑战的舞台。这就要求从业人员拥有更专业的工程素养,同时也对Prompt生态的支持工具提出了更高的要求。

全 面 优 化

为了应对如此多维度、全方位的提示语优化过程,我们迫切需要一种全新的Prompt工程支持系统。该系统应当提供:

1. 可视化的Prompt,支持清晰分区和灵活组合,使编辑更高效;

2. 版本管理与差异对比功能,追踪变更细节,高效检视影响,避免重复尝试; 

3. 批量测试与评估,集成各种预置metric,对多个Prompt、多个模型进行全方位评估;(论文正文最后一个单词,篇幅原因,你想细致了解metric,可以在公众号发送这个关键字metric,我给你发送更详细的解释)

4. 模型解释与可视化,透视模型的决策路径,探索优化技巧,改善理解度;

5. 云端知识库及社区支持,融合领域专家经验,降低重复学习成本。

只有构建一体化的Prompt工程生态,我们才能最终驯服强大的LLM,助力企业充分释放人工智能的无限潜能。这是一个值得我们携手并肩的伟大时代!



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询