微信扫码
与创始人交个朋友
我要投稿
基于反馈和偏好优化的自动提示工程算法 APEER,解决了信息检索领域大型语言模型依赖人工提示的难题,有效提升了模型在跨数据集和模型架构的相关性排序任务中的性能。
论文介绍
基于大型语言模型 (LLM) 的信息检索 (IR) 领域中的一项重大挑战是零样本相关性排序严重依赖人工编写的提示。这种依赖需要大量的人力和专业知识,使得该过程耗时且主观。此外,现有方法不足以解决相关性排序中涉及的复杂性,例如整合查询和长段落对以及对全面相关性评估的需求。这些挑战阻碍了 LLM 在现实世界场景中的高效和可扩展应用,限制了其在增强 IR 任务方面的全部潜力。
当前解决这一挑战的方法主要涉及手动提示工程,虽然有效,但耗时且主观。手动方法缺乏可扩展性,并且受到人类专业知识可变性的限制。此外,现有的自动提示工程技术更多地关注语言建模和分类等更简单的任务,未能解决相关性排序的独特复杂性。这些复杂性包括查询和段落对的集成以及对全面相关性排名的需求,现有方法由于其简单的优化过程而无法最佳地处理这些问题。
来自罗格斯大学和康涅狄格大学的一个研究团队提出了 APEER(Automatic Prompt Engineering Enhances LLM Reranking),它通过迭代反馈和偏好优化来自动化提示工程。这种方法通过根据性能反馈生成改进的提示并使它们与首选提示示例保持一致,从而最大限度地减少了人工参与。通过系统地改进提示,APEER 解决了手动提示工程的局限性,并提高了 LLM 在 IR 任务中的效率和准确性。该方法通过为在复杂相关性排序场景中优化 LLM 提示提供可扩展且有效的解决方案,代表了一项重大进步。
APEER 的运作方式是首先生成提示,然后通过两个主要优化步骤对其进行改进。反馈优化涉及获取当前提示的性能反馈并生成改进版本。偏好优化通过从正面和负面示例集中学习来进一步增强此提示。APEER 的训练和验证使用多个数据集进行,包括 MS MARCO、TREC-DL 和 BEIR,确保了该方法在各种 IR 任务和 LLM 架构中的稳健性和有效性。
APEER 在相关性排序任务方面展示了 LLM 性能的显着改进。nDCG@1、nDCG@5 和 nDCG@10 等关键性能指标显示,与最先进的手动提示相比,APEER 有了实质性的提高。例如,与 LLaMA3 模型上的手动提示相比,APEER 在八个 BEIR 数据集上实现了平均 5.29 nDCG@10 的改进。此外,APEER 的提示在不同任务和 LLM 架构之间表现出更好的可迁移性,在各种数据集和模型(包括 GPT-4、LLaMA3 和 Qwen2)上始终优于基线方法。
总之,所提出的 APEER 方法自动为 IR 中的 LLM 进行提示工程,解决了依赖人工编写的提示的关键挑战。通过采用迭代反馈和偏好优化,APEER 减少了人工工作量,并显着提高了 LLM 在各种数据集和模型中的性能。这项创新代表了该领域的重大进步,为在复杂相关性排序场景中优化 LLM 提示提供了可扩展且有效的解决方案。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-13
2024-08-21
2024-07-09
2024-08-04
2024-04-11
2024-06-13
2024-07-18
2024-07-01