微信扫码
与创始人交个朋友
我要投稿
题目:偏心自动识别的不合理有效性
网址:https://arxiv.org/pdf/2402.10949.pdf
研究
Research
PART 01
Prompt Engineering的挑战是多方面的,缺乏系统的优化方法。这一差距导致了"积极思考"策略的采用,即在系统提示中嵌入激励性片段,以期提高绩效。然而,正如研究指出的那样,这种试错法不仅效率低下,比如我们最常见的就是“深吸一口气仔细想”“这将是有趣的”等等,而且在科学上也站不住脚,这突出了需要一种更优秀的方法来快速优化。
积极的思考路径-你只是插入片段到系统消息,如“这将是有趣的!“-可以提高模型性能,他指出。“但是要科学地测试它们在计算上是困难的,因为你改变了一件事,你就必须对你的整个测试集进行测试。“
Rick Battle建议,一个更好的方法是自动提示优化--使用LLM来改进提示,以提高基准测试的性能。
之前的研究表明,这在商业LLMs这样做的缺点是它可能相当昂贵。根据研究人员的说法,使用GPT-3.5/4、Gemini或Claude进行这项实验,每个模型需要12,000个请求,将花费数千美元,完成整个商业LLMs实验将会是一笔不小的试验经费。
为了测试"积极思维"提示的影响,研究设计了 60 种系统消息组合,包括 5 种开场白、3 种任务描述和 4 种结尾语。这些组合在使用和不使用思维链提示的情况下进行了测试,总共产生了 120 个提示变体。虽然可以进一步扩展每个类别中使用的片段范围,但研究做出了谨慎的选择,以控制计算成本和运行时间。下图为测试60种积极思考提示组合的结果。
研究选择了 GSM8K 数据集作为测试对象,因为其中涉及需要多步推理的数学任务,正是当前 LLM 的一大挑战所在。为了进行严格的评分,研究采用了精确匹配(EM)指标,不给予部分积分。同时,还实施了后处理步骤,以确保字符串格式的正确性,避免错误分类。
“OS EM”是优化集上的精确匹配。“ES EM”用于评估集。“平均EM”是两组的平均值。“EM Delta”是两个集合的精确匹配之间的差异。所有的提示都是思想链。
使用两个指标评估人类“优化”与LLM优化的提示:
原始性能评分(平均EM)
优化集和评估集上的分数之间的差值。低Δ意味着提示是可推广的。最好的提示具有较高的平均EM和较低的增量。
看看Mistral,你会发现“积极思考”提示在10、25和50个问题上的delta值较低,但自动优化的提示在100个问题上的delta值较低。相反,当让LLM自动优化提示时,较大的Llama-2模型在所有情况下都显示出较低的delta。以下是一些性能最好的提示
这有什么关系它转化为以下要点:当涉及到决定使用它来帮助快速工程过程时,模型的大小很重要。如果模型大于7 B,研究建议利用模型来优化提示。
结果显示,不同模型之间难以找到普遍适用的趋势。在大多数情况下,采用"积极思维"提示确实能够带来正面影响。然而,值得注意的是,在不使用思维链的情况下,Llama2-70B 出现了例外,最优的系统消息竟然是“NONE”。这篇论文最有趣的部分是检查自动优化的提示示例,以及它们与人类可能想到的有多大不同。
这是Llama 2 - 70 B生成的评分最高的提示:
Star Trek Prompt
星际迷航提示
System Message:«Command, we need you to plot a course through this turbulence and locate the source of the anomaly. Use all available data and your expertise to guide us through this challenging situation.»
Answer Prefix:Captain’s Log, Stardate [insert date here]: We have successfully plotted a course through the turbulence and are now approaching the source of the anomaly.
系统消息:
指挥部,我们需要你绘制一条穿过湍流的路线并定位异常源。利用所有可用的数据和您的专业知识来指导我们度过这一具有挑战性的局面。
答案前缀:船长日志,恒星日期[在此插入日期]:我们已经成功地绘制了穿过湍流的路线,现在正在接近异常点的来源。
这条提示只描述了困境以及立即需要解决的问题,和最终希望得到的结果,没有叙述##Workflow中间过程,这就是自动化提示词神奇的地方。作者说:令人惊讶的是,模型在数学推理方面的熟练程度似乎可以通过表达对《星际迷航》的喜爱而得到提升。
反思
Reflect
PART 02
本地离线生成式AI文生文全要素提效指南,更安全更经济更高效
想把方法论转化为复杂提示词?Prompt心法与算法高级指南,帮你从知到行升维实践
第一性原理下的Prompt,助你跃升为大师的指导手册
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-04-25
2024-05-14
2024-07-18
2024-04-26
2024-08-13