支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


自动化优化 Prompt:MARS 框架引入苏格拉底式引导

发布日期:2025-03-31 08:47:03 浏览次数: 1581 作者:觉察流
推荐语

探索大语言模型提示词优化新路径,MARS框架让你的模型更聪明。

核心内容:
1. MARS框架的必要性及其对大型语言模型的影响
2. 苏格拉底式引导对话模式在MARS框架中的应用
3. MARS框架的多智能体架构和优化过程详解

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


 在我们应用大语言模型的时候,提示词就像是给模型指明道路的灯塔。然而,手动设计提示词不仅费时费力,还容易受到认知偏见的影响。今天,我们来聊一个能为提示词优化带来变化的框架——MARS。


 

大家好,我是肆〇柒,今天想和大家聊聊MARS 框架。这个框架就像是给大模型装上了一个“思考引擎”,让它在面对各种任务时,能够像一个聪明的学者一样,一步步找到最优解。听起来有点酷。下面,就一起来了解一下!

一、为什么需要 MARS 框架?

大型语言模型(LLM)已经成为了处理各种自然语言任务的“全能选手”。但它们的表现其实很大程度上取决于我们给它们的提示词(prompt)。一个好的提示词就像是给模型指明了一条清晰的道路,让它能准确地理解任务并给出正确的回答。

为了让大家更直观地感受提示词对模型输出的影响,我们可以参考下图。


这张图展示了三种不同提示词及其对应的回答,用于一个单词排序任务。从图中可以看到,不同的提示词会导致模型给出截然不同的回答。例如,零样本提示词(zero-shot prompt)可能会导致模型误解任务要求,而经过优化的提示词则能让模型准确地完成任务。这充分说明了提示词优化的重要性。

然而,手动设计提示词不仅费时费力,还容易受到设计者的认知偏见影响。比如,有些任务需要非常复杂的逻辑推理,手动设计的提示词可能根本无法覆盖所有情况。于是,自动化提示词优化(APO)应运而生。APO 的目标是摆脱手动设计提示词的局限,探索更广阔的设计空间。

但现有的 APO 方法有两个主要问题:一是固定模板的灵活性有限,无法适应不同任务的多样化需求;二是提示词空间的搜索效率低下,很多方法只能在局部范围内优化提示词,导致整体效果不够理想。为了解决这些问题,研究者们提出了 MARS 框架!

二、苏格拉底式引导对话模式:文化背景与原理

在介绍 MARS 框架之前,我们先来聊聊一个有趣的概念——苏格拉底式引导对话模式。这个概念源自古希腊哲学家苏格拉底,他通过提问的方式引导学生思考,而不是直接给出答案。这种对话模式的核心在于激发学生的自主学习能力和批判性思维。

举个例子,假设你是一个学生,老师问你:“什么是正义?”你可能会回答:“正义就是做好事。”老师接着问:“那么,如果一个人做好事的动机是出于自私,这还算正义吗?”通过这样的提问,老师引导你深入思考“正义”的真正含义,而不是直接告诉你答案。

这种对话模式在教育领域被广泛应用,因为它能够帮助学生更好地理解和掌握知识。MARS 框架借鉴了这一模式,通过智能体之间的对话和提问,逐步优化提示词,最终找到最优解。

三、MARS 框架:多智能体与苏格拉底式引导

MARS 框架的核心在于它的多智能体架构和苏格拉底式引导对话模式。这个框架包含七个智能体,每个智能体都有独特的功能。它们协同工作,就像一个高效的团队,一步步优化提示词。

1. 多智能体架构

  • • 规划者(Planner):这个智能体就像是一个聪明的项目经理。它会根据任务需求,制定详细的优化步骤。比如,在一个几何形状识别任务中,规划者会先分析输入的 SVG 路径,然后逐步分解任务,确保每个步骤都能引导模型找到最优解。它确保每个任务都有自己的优化轨迹,避免了固定模板的局限性。
  • • 教师(Teacher):教师的作用是通过提问引导学生思考。它会提出开放性问题,比如“如何通过路径命令识别几何形状的关键特征?”这种提问方式不仅激发了学生的自主学习能力,还能让优化过程更加透明。
  • • 批评者(Critic):这个智能体是团队中的“质检员”。它会评估教师提出的问题是否符合苏格拉底式风格,并提供反馈。如果问题不够开放或者引导性太强,批评者会要求教师调整问题,直到问题质量达到标准。
  • • 学生(Student):学生是实际执行优化的智能体。它会根据教师的引导和批评者的反馈,逐步优化提示词。比如,在一个布尔表达式任务中,学生会一步步分析表达式的每个部分,最终得出正确的真值。

为了让大家更直观地理解 MARS 框架的整体架构,我们可以参考下图。

这张图展示了 MARS 模型的整体架构,包括七个智能体的协同工作方式。从图中可以看到,Manager 负责整个过程的协调,UserProxy 接收输入和原始提示词,而 Planner 则根据输入和任务描述制定 APO 计划。在苏格拉底式引导对话模式中,Teacher-Critic-Student 系统会根据 Planner 的计划逐步优化提示词,最终由 Target 进行评估和记录。

2. 苏格拉底式引导对话模式

苏格拉底式引导的核心在于通过提问激发思考。在这个框架中,教师提出问题,学生回答,批评者评估,三者协同工作,逐步优化提示词。比如,在一个法律推理任务中,教师可能会问:“如何通过逐步排除法验证每个选项的合理性?”学生则会根据问题逐步优化提示词,最终找到最优解。

为了让大家更清楚地看到这个过程,我们可以参考下图。

这张图展示了 Teacher-Critic-Student 苏格拉底式引导对话模式的具体实例,展示了第五步优化迭代的过程。通过这种模式,MARS 框架不仅提高了提示词优化的效率,还让整个过程变得透明且可解释。为了更具体地展示苏格拉底式引导对话模式的过程,我们可以参考以下算法过程。
这个算法详细描述了 MARS 框架的优化过程,包括初始化任务、接收输入、规划优化步骤、迭代优化提示词、评估结果等步骤。通过这个算法,我们可以清楚地看到 MARS 框架是如何通过多智能体协同工作来优化提示词的。

四、实验验证:MARS 框架的强大表现

为了验证 MARS 框架的有效性,研究者们在多个通用任务和特定领域数据集上进行了广泛的实验。实验结果表明,MARS 框架在通用任务上比之前的最佳方法提高了 6.04%,在特定领域任务上提高了 6.42%。这些数据充分证明了 MARS 框架的强大能力。

1. 通用任务实验

在通用任务实验中,MARS 框架在布尔表达式、几何形状、体育理解等任务上表现优异。比如,在布尔表达式任务中,MARS 通过逐步分析表达式的每个部分,准确地得出了最终的真值。具体来说,它会先识别表达式中的逻辑运算符,然后逐步计算每个子表达式的值,最终得出正确的结果。

为了让大家更直观地看到 MARS 在通用任务上的表现,我们可以参考下表。

这张表展示了 MARS 在 12 个通用任务上的性能比较,涵盖了 BBH 和 MMLU 两个常用的评估基准。从表中可以看出,MARS 在所有任务上都超越了现有的基线方法。

2. 特定领域任务实验

在特定领域任务中,MARS 框架在中文、法律和数学领域都展现了强大的能力。比如,在法律推理任务中,MARS 能够准确地分析给定的调度问题,逐步排除不符合条件的选项,最终得出正确的答案。它会先列出所有约束条件,然后优先处理最严格的条件,逐步缩小可能的选项范围。

为了让大家更直观地看到 MARS 在特定领域任务上的表现,我们可以参考下表。
这张表展示了 MARS 在中文、法律和数学领域的性能比较。从表中可以看出,MARS 在所有特定领域任务上都表现优异,超越了现有的基线方法。

五、效率分析:资源消耗与性能提升的平衡

MARS 框架在优化提示词的过程中,通过分阶段优化,逐步缩小提示词空间,从而在性能提升和资源消耗之间找到了一个绝佳的平衡点。研究者们提出了一个新的指标——提示词效率(PE),用来衡量模型在消耗最少资源的情况下表现如何。

为了让大家更直观地看到 MARS 在效率方面的表现,我们可以参考下图。
这张图展示了 MARS 与其他基线方法在不同任务上的 PE 指标比较。从图中可以看出,MARS 在多个任务上的 PE 值都远超其他基线方法,表明它在性能提升和资源消耗之间取得了很好的平衡。

六、收敛速度与案例分析

除了效率分析,MARS 框架在收敛速度方面也表现出色。研究者们通过实验验证了 MARS 在不同任务上的收敛速度,结果表明 MARS 能够在较少的迭代次数内达到最优解,从而减少了资源消耗,提高了优化效率。

为了让大家更直观地看到 MARS 的收敛速度,我们可以参考下图。


这张图展示了 MARS 与其他基线方法在不同任务上的收敛曲线。从图中可以看出,MARS 在多个任务上的收敛速度明显快于其他方法。此外,为了进一步展示 MARS 的优化效果,我们可以参考下图。
这张图展示了一个几何形状任务的案例研究,包括规划步骤和优化后的提示词。通过这个案例,我们可以清楚地看到 MARS 框架如何通过逐步优化提示词,最终找到最优解。

七、总结与展望

MARS 框架作为一种创新的多智能体架构,为自动化提示词优化提供了一种全新的解决方案。它通过自主规划优化路径和苏格拉底式引导对话模式,不仅提高了提示词优化的效率,还增强了过程的可解释性。

然而,MARS 框架也存在一些局限性。比如,如何找到适用于不同类型任务的通用提示词表示,以及如何将环境反馈融入提示词优化过程。这些问题是需要研究解决的。

论文的作者还有一个MARS 的开源仓库,我阅读完论文以后到 github 上看了一下,遗憾的是,作者还没有上传。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询