AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Auto-Prompt | 大模型提示(Prompt)优化新方法IPC:可根据用户意图进行定向优化
发布日期:2024-03-30 09:09:13 浏览次数: 2164 来源:AINLPer



引言

由于大语言模型(LLMs)对给定的提示比较敏感,并且文本任务指令本身就存在歧义性。为了能够让LLMs发挥出最佳性能,自动提示(Auto-Prompt)工程至关重要。

今天给大家分享的这篇文章,提出了一种名为Intent-based Prompt Calibration (IPC) 的系统,旨在通过使用合成案例样本来优化大型语言模型(LLMs)的提示(prompt)工程。「该方法核心思想是根据用户意图迭代地细化提示」, 在优化过程中,系统生成相关案例样本数据集,并根据生成的数据集优化提示。https://arxiv.org/pdf/2402.03099v1.pdf

背景介绍

近年来,大语言模型(LLMs)的能力得到了显着增强,并在各种任务上展示出了超强性能。然而尽管如此,模型输出的质量对条件提示高度敏感。即使提示格式稍有修改也会显着影响模型的性能。这个问题在专有领域模型中更为明显,一旦模型版本发生改变,模型生成结果将发生巨大变化。

为了解决大模型的提示敏感性问题,有人提出使用软提示(soft-prompt)的方法,但此类方法需要对LLM本身做相应的改变才可进行优化。然而最近的研究表明,可以通过大模型本身来优化提示。为此,每个提示都会根据给定的基准指标分配一个分数。优化过程中,首先通过提供一个元提示(meta-prompt)来迭代执行,这个元提示结合最近几次的提示分数,最后引导模型选出分数更高的提示。评估此类方法需要大量的高质量基准数据,然而此类基准数据并不常见。

天无绝人之路,大型语言模型(LLMs)已被证明在生成高质量和丰富的数据集方面非常有效,这些数据集能够提升模型在多样化任务上的性能。近期的研究展示了LLMs的能力,它们能够细化用户提供的提示,解决初始提示的歧义性。然而,在没有额外信息的情况下,模型必须猜测用户的真实意图,这在许多情况下可能导致不准确的结果。

基于以上背景,本文提出了基于意图的提示校准(IPC, Intent-based Prompt Calibration)系统,该系统旨在通过合成示例根据用户的意图校准提示。校准过程通过迭代构建具有挑战性的样本数据集,并根据生成的基准来优化提示。

IPC

IPC整体系统架构如下图所示,该系统主要由「Dataset」「Estimator」「Evaluator」「Optimizer」四部分组成。其中:

「Dataset」负责管理数据集,执行数据的插入、修改、删除和应用函数等操作,并进行数据清洗以去除语义重复和进行语义抽样。由于系统优化用于处理小数据集,当前实现基于本地数据库,使用pandas库。

「Estimator」负责估计一批样本,它实现了两种估计器:人类注释和大型语言模型(LLM)估计。支持Argilla UI进行人类注释,以及使用Langchain集成的LLM。为了提高效率,估计器支持并行处理和异步调用,并支持批量估计器,它可以运行多个LLM估计器,并通过聚合层整合输出。

「Evaluator」负责在预测和注释阶段之后评估记录,该组件接受一个函数并将其应用于每一行数据。它还负责定义错误并使用分析器进行错误分析。

「Optimizer」负责管理整个优化过程,执行迭代步骤,并负责停止优化过程并返回最终校准的提示。

IPC系统具体实现流程图如下所示。本文作者从初始的提示建议和任务描述开始。用户还可以在少量样本的设置中提供一些示例。然后,在校准优化过程中,系统会迭代执行以下步骤:

  • 1.为任务和当前提示提出一些具有挑战性和多样性的样本(对应上图步骤2)。
  • 2.在生成的数据集上评估当前提示,并进行分析(对应上图3)。
  • 3.根据最近几次的提示,生成一个分数更高的提示。当最近几步没有改进,或者达到最大迭代次数时,优化过程就会结束(对应上图4)。

除此之外,本文IPC系统的基线配置针对分类任务进行了优化,将准确度被设定为评分函数,并通过混淆矩阵和提示错误分类进行错误分析。整体系统流程示例如下图所示:通过上图可以看到,在每次迭代中,根据当前提示生成新的样本,利用这些样本的误分类来细化提示,直到它能够校准到用户的意图。

实验结果

下图展示了Spoiler和PG分类任务的准确性,可以看到IPC在所有测试方法中表现最佳,且方差较低。下图展示了情感分类任务在合成数据集上不同训练步骤下的准确率。IPC在所有测试方法中表现最佳,且方差较低。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询