我要投稿

IBM深刻洞见：解锁企业界Prompt工程最佳实践

发布日期：2024-04-01 18:04:00 浏览次数： 2456

作者：AI修猫Prompt

微信搜一搜，关注“AI修猫Prompt”

近期发表的IBM研究报告深入探讨了企业界Prompt工程的实践，为业界带来了全新的启示和思考。这项研究是IBM对现实世界中人们处理提示的倾向和实践的一次细致观察。该研究分析了企业环境中的分析了来自1712 名用户的数据集的提示会话。研究结果对于企业构建Prompt具有很高的参考价值。

Foto: Sean Gallup/ Getty Images

在当今人工智能浪潮中，大型语言模型(LLM)正成为企业提高效率、释放AI潜能的关键动力。与之密切相关的是Prompt工程，这一全新领域正在重塑人机交互的未来。IBM的这项研究包含大量有趣的信息，挑战了常见的假设。研究结果已经发布，让我们细细品味，领略其中的精髓洞见：

题目：探索提示工程在企业中的实践

网址：https://arxiv.org/pdf/2403.08950.pdf

迭代优化成常态，上下文编辑占主导

Key Insights

PART 01

报告显示，Prompt工程绝非一蹴而就，而是一个极为耗时的迭代优化过程。研究人员分析了1712名用户的数据，平均每个编辑会话长达43分钟，而相邻两个Prompt版本间的修改时间仅50秒。这充分体现了Prompt优化的反复试错本质。

更加引人注目的是，上下文编辑成为最常见的优化环节，远超出指令编辑的频率。

上下文指的是提示语中包含的示例、背景信息等基础数据。用户往往通过循环修改上下文，来测试Prompt在不同情境下的表现，以确保其健壮性。这一发现颠覆了传统假设，即任务说明才是Prompt优化的重中之重。

模型切换与参数调优并重

Key Insights

PART 02

除了Prompt本身的编辑之外，参数调整也是工程过程中的关键一环。数据显示，93%的会话都涉及了参数改动，而最常更换的竟是所使用的LLM模型本身。平均每个会话会尝试3.6种不同模型，充分说明了在特定任务场景下，探索并挑选最优模型的重要性。

此外，最大输出长度和重复性惩罚(repetition penalty)也是调整的普遍对象。可见，用户不仅追求语义的准确性，也注重生成内容的长度和多样性，以期获得理想的输出效果。这也从侧面映射出企业对LLM应用的高标准要求。

考虑到模型变化的频率，研究人员深入研究并分析了在单次提示会话中使用了多少个模型。

‍

一次会话中测试的模型平均数量为 3.6。这强调了能够轻松测试不同模型的重要性。关于部署应用本地个性化模型可以看看这篇付费文章：

本地离线生成式AI文生文全要素提效指南，更安全更经济更高效

多方位编辑与回滚不可忽视

Key Insights

PART 03

细致入微的编辑是Prompt工程的特色。研究发现，近四分之一的编辑涉及多处修改，平均约两处编辑同时进行。其中相当一部分涉及上下文和指令的同步修改。这种做法的合理性在于，更新上下文后，指令部分也要做出相应调整，否则可能会产生不一致的输出。

与此同时，11%的编辑是回滚到先前的版本，体现了试错的融入。研究还发现，负责处理未知情况的"handle-unknow"条目以及标签编辑最易被回滚。这表明这些指令对语义影响较大，编辑难度较高，往往需要多次修正才能达到预期效果。

40% 的回滚都是针对 instructions:handle-unknown（“如果您不知道，请回复”）
25% 的回滚与指令有关：输出长度
24% 的回滚是针对标签编辑，18% 是针对角色编辑。

相比之下，对指令和任务等其他部分的编辑回滚频率要低得多（8-9％）。

考虑到这一点，让我们看一下上面的频率图，回滚率较高的组件编辑频率较低。用户可能发现编辑这些组件会导致更糟糕的结果，因此他们回滚了更改，然后编辑频率较低。

探索Prompt的主要组成部分

Key Insights

PART 04

这张图展示了大型语言模型Prompt中的不同组成部分及其描述和示例。它将Prompt分为以下几个主要部分:

1. instruction:task - 指定Prompt的目标或任务,以及与所需输出相关的其他细节。例如"根据文档回答问题"或"总结文档"。

2. instruction:persona - 指定LLM在生成输出时应扮演的角色或身份。例如"SQL专家"或"AI助手"。

3. instruction:method - 描述LLM应遵循的流程或方法来生成输出,例如"step-by-step"(逐步)。

4. instruction:output-length - 对输出长度的描述,如"50个单词"或"简洁"。

5. instruction:output-format - 指定输出应采取的形式,如JSON或段落。

6. instruction:inclusion - 描述输出应包括或不包括的内容,如"解释"或"来自提供文档的具体信息"。

7. instruction:handle-unknown - 描述如果LLM缺乏生成所需输出的知识时,应如何处理,如"如果你不知道,回复[...]"。

8. label - 提示语中用于标识元素的文本,如"Instruction:"或"<Context></Context>"。

9. context - 包括用于提供背景的示例、文档和输入查询。

10. other - 上述之外的其他内容。

此图总结了Prompt中不同组成部分的作用和示例，有助于构建清晰可视化且有目标的Prompt，以指导LLM生成所需的输出。

深入思考看到如此生动翔实的研究数据，不禁令人沉思：企业中的Prompt工程实践远比想象的更加复杂和动态。高成本、高标准、高不确定性，共同打造了一个充满挑战的舞台。这就要求从业人员拥有更专业的工程素养，同时也对Prompt生态的支持工具提出了更高的要求。

全面优化

为了应对如此多维度、全方位的提示语优化过程，我们迫切需要一种全新的Prompt工程支持系统。该系统应当提供:

1. 可视化的Prompt，支持清晰分区和灵活组合，使编辑更高效;

2. 版本管理与差异对比功能，追踪变更细节，高效检视影响，避免重复尝试;

3. 批量测试与评估，集成各种预置metric，对多个Prompt、多个模型进行全方位评估;（论文正文最后一个单词，篇幅原因，你想细致了解metric，可以在公众号发送这个关键字metric，我给你发送更详细的解释）

4. 模型解释与可视化，透视模型的决策路径，探索优化技巧，改善理解度;

5. 云端知识库及社区支持，融合领域专家经验，降低重复学习成本。

只有构建一体化的Prompt工程生态，我们才能最终驯服强大的LLM，助力企业充分释放人工智能的无限潜能。这是一个值得我们携手并肩的伟大时代!

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

DeepSeek R1-0528 小版本升级

2025-05-29

教你解决GPT4o无法使用新版生图功能的教程

2025-04-11

15个最佳开源 RAG 框架选型指南

2025-04-13

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

AI法规-《生成式人工智能服务管理暂行办法》（中国）（2023.7）

2025-04-12

比 R1 快 8 倍、价格仅 3%，智谱新推理模型来袭，能让免费智能体自己赚钱！张鹏：Agent 也有 Scaling Law

2025-04-06

浅谈如何利用【提示工程】赋能你的业务场景

2025-04-02

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

大家都在问

Llama Factory 是什么？

2025-06-30

【Agent专题】Agent应用篇：全网最强Agent应用横评！下一代AI超级助手，到底谁最能打？

2025-06-30

解密可落地的企业AI Agent：其完整技术架构如何实现业务闭环？

2025-06-30

GraphRAG的索引动态更新解法-分桶+局部更新及“上下文工程”新概念？

2025-06-30

你的RAG系统安全么？

2025-06-29

卷疯了！这个清华系Agent框架开源后迅速斩获1.9k stars，还要“消灭”Prompt？

2025-06-28

开发Agent，有哪些值得做的脏活累活？

2025-06-27

Kimi-Researcher首发实测：它凭什么在AI“高考”中超越Claude和Gemini？

2025-06-26

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB