我要投稿

应该自动生成 Prompt 还是手写？提示措辞中微不足道的变化对生成内容有重大影响

发布日期：2024-04-10 21:31:20 浏览次数： 2483

作者：AI修猫Prompt

微信搜一搜，关注“AI修猫Prompt”

本文：3100字阅读8分钟

图片来自DALL.E

很多朋友可能一直醉心于手写Prompt，可现在的进展是：手写Prompt不足以达到某些特殊任务的精度要求，机器的事情还是应该交给机器自己去干。然而另一个扎心的事实是：自动生成的Prompt也并非万能！人工智能反复无常的本质究竟应该让我们作何选择，手写还是自动生成？

大型语言模型(LLMs)的出现带来了快速工程的复杂实践。这门学科跨越了艺术和科学之间的界限，涉及到制作精确的提示，以指导人工智能模型，特别是很多LLM应用生成所需的响应。近日，在VMware的Rick Battle和Teja Gollapudi的开创性研究"偏心自动识别的不合理有效性"中，研究揭示了即时细微差别对人工智能性能的微妙而深远的影响。他们的研究结果显示，激励的不可预测性和复杂性，看似微小的调整可能会极大地影响结果。Rick Battle在一次电话采访中告诉The Register，他解释说：“这篇论文的主要观点是，试错法是错误的做事方式。”

题目：偏心自动识别的不合理有效性

网址：https://arxiv.org/pdf/2402.10949.pdf

研究

Research

PART 01

Prompt Engineering的挑战是多方面的，缺乏系统的优化方法。这一差距导致了"积极思考"策略的采用，即在系统提示中嵌入激励性片段，以期提高绩效。然而，正如研究指出的那样，这种试错法不仅效率低下，比如我们最常见的就是“深吸一口气仔细想”“这将是有趣的”等等，而且在科学上也站不住脚，这突出了需要一种更优秀的方法来快速优化。

积极的思考路径-你只是插入片段到系统消息，如“这将是有趣的！“-可以提高模型性能，他指出。“但是要科学地测试它们在计算上是困难的，因为你改变了一件事，你就必须对你的整个测试集进行测试。“

Rick Battle建议，一个更好的方法是自动提示优化--使用LLM来改进提示，以提高基准测试的性能。

之前的研究表明，这在商业LLMs这样做的缺点是它可能相当昂贵。根据研究人员的说法，使用GPT-3.5/4、Gemini或Claude进行这项实验，每个模型需要12，000个请求，将花费数千美元，完成整个商业LLMs实验将会是一笔不小的试验经费。

为了测试"积极思维"提示的影响，研究设计了 60 种系统消息组合，包括 5 种开场白、3 种任务描述和 4 种结尾语。这些组合在使用和不使用思维链提示的情况下进行了测试，总共产生了 120 个提示变体。虽然可以进一步扩展每个类别中使用的片段范围，但研究做出了谨慎的选择，以控制计算成本和运行时间。下图为测试60种积极思考提示组合的结果。

研究选择了 GSM8K 数据集作为测试对象，因为其中涉及需要多步推理的数学任务，正是当前 LLM 的一大挑战所在。为了进行严格的评分，研究采用了精确匹配(EM)指标，不给予部分积分。同时，还实施了后处理步骤，以确保字符串格式的正确性，避免错误分类。

为了控制计算成本，研究系统地对 GSM8K 测试集进行了子集抽取，提取了包含前 10、25、50 和 100 个问题的子集。此外，研究还采用了简单的在上下文学习策略，仅使用最后 4 个测试样例作为示例。研究选择了 VMware NLP Lab 提供的 3 个模型:Mistral-7B、Llama2-13B 和 Llama2-70B。

“OS EM”是优化集上的精确匹配。“ES EM”用于评估集。“平均EM”是两组的平均值。“EM Delta”是两个集合的精确匹配之间的差异。所有的提示都是思想链。

使用两个指标评估人类“优化”与LLM优化的提示：

原始性能评分（平均EM）
优化集和评估集上的分数之间的差值。低Δ意味着提示是可推广的。最好的提示具有较高的平均EM和较低的增量。

看看Mistral，你会发现“积极思考”提示在10、25和50个问题上的delta值较低，但自动优化的提示在100个问题上的delta值较低。相反，当让LLM自动优化提示时，较大的Llama-2模型在所有情况下都显示出较低的delta。以下是一些性能最好的提示

这有什么关系它转化为以下要点：当涉及到决定使用它来帮助快速工程过程时，模型的大小很重要。如果模型大于7 B，研究建议利用模型来优化提示。

结果显示，不同模型之间难以找到普遍适用的趋势。在大多数情况下，采用"积极思维"提示确实能够带来正面影响。然而，值得注意的是，在不使用思维链的情况下，Llama2-70B 出现了例外，最优的系统消息竟然是“NONE”。这篇论文最有趣的部分是检查自动优化的提示示例，以及它们与人类可能想到的有多大不同。

这是Llama 2 - 70 B生成的评分最高的提示：

Star Trek Prompt

星际迷航提示

System Message:«Command, we need you to plot a course through this turbulence and locate the source of the anomaly. Use all available data and your expertise to guide us through this challenging situation.»

Answer Prefix:Captain’s Log, Stardate [insert date here]: We have successfully plotted a course through the turbulence and are now approaching the source of the anomaly.

系统消息：
指挥部，我们需要你绘制一条穿过湍流的路线并定位异常源。利用所有可用的数据和您的专业知识来指导我们度过这一具有挑战性的局面。

答案前缀：船长日志，恒星日期[在此插入日期]：我们已经成功地绘制了穿过湍流的路线，现在正在接近异常点的来源。

这条提示只描述了困境以及立即需要解决的问题，和最终希望得到的结果，没有叙述##Workflow中间过程，这就是自动化提示词神奇的地方。作者说：令人惊讶的是，模型在数学推理方面的熟练程度似乎可以通过表达对《星际迷航》的喜爱而得到提升。

鉴于为大型黑盒模型手动调整提示组合所需的巨大计算复杂性，研究将最佳"积极思维"提示的性能与自动提示优化的结果进行了比较。研究发现，即使对于较小的开源模型，采用自动优化方法也能产生优于手工设计的提示，且泛化性更强。此外，研究还发现，自动生成的最高得分提示呈现出超乎预料的独特性。

反思

Reflect

PART 02

进入自动提示优化，这是一个先进的战略倡导。这种方法利用LLMs本身来改进提示，为手动优化的低效率提供了一个有前途的解决方案。尽管传统上成本高昂，特别是在使用GPT-3.5/4等商业模型进行广泛测试时，本研究开创了使用较小的开源模型作为有效优化器的先河。实验结果表明，即使数据集有限，自动优化也明显优于手动优化，使人工智能交互更加有效和经济。

研究中最有趣的一个方面是发现了违背逻辑解释的自动提示。例如，在系统信息中引入对"古代神话"的亲和性出乎意料地增强了模型在历史分析中的表现。这些发现强调了人工智能反复无常的本质，揭示了人类工程师可能无法采取的策略。

Battle和Gollapudi的工作不仅挑战了快速工程的传统方法，而且预示着人工智能交互的新时代。他们的研究开辟了一条以科学严谨和计算可行的方式优化人工智能模型的途径，有望在未来使人工智能应用变得更容易获得，更有效和更有影响力。

我的观点是：人类手写提示与LLMs自动化生成混合将会得到最好的结果。

PS：研究人员利用 DSPy 优化器对提示进行了自动优化，并将其性能与人工生成的"积极思维"提示进行了对比分析。DSPy 是一个斯坦福、伯克利、卡梅隆、麻省理工、亚马逊、微软等联合发布的一项提示自动化技术，斯坦福开源的优化库，可以帮助开发者有效地像优化各种机器学习模型超参数一样生成并优化提示。在本研究中，研究人员利用 DSPy 提供的优化功能，自动生成并调整提示，以期获得最佳的模型性能。通过使用这种自动优化工具，研究发现自动生成的提示通常能够优于人工手工设计的"积极思维"提示，特别是在较大的语言模型上，展现出更出色的泛化能力。这为未来基于LLM的应用开发提供了一种更加系统高效的优化方法。后续我将为大家详细介绍DSPy，敬请关注！

<本文完结>

转载请与本喵联系，私自抓取转载将由律师维权

AI已成为我洞察世界并输出想法的工具

本地部署LLM成为你自己AI资源的掌控者