我要投稿

DSPy并非手写Prompt万能替代品，掌握这6个有效策略，能增强DSPy应用程序

发布日期：2024-06-27 19:50:44 浏览次数： 2781 作者：AI修猫Prompt

亲爱的朋友们，当你打开这篇文章时，说明你对DSPy多少都有了一些了解，你准备好了解如何让DSPy应用程序性能飞起来吗？今天，我们要一起探讨一个热门话题：DSPy究竟真的能不能完全取代手写Prompt？别着急，让我们先来看看如何用6个超级有效的策略来提升你的DSPy应用！

图片由xiumaodalle生成

DSPy，这个听起来很酷的机器学习框架，它的灵感来自于PyTorch的神经网络架构，但是专门用于语言模型（LMs）。你可能会问：DSPy编译的应用程序为什么在处理任务时能更好地提示LMs呢？是因为DSPy的优化器比人类更有创意吗？不，其实是因为这些优化器可以尝试更多的方法，而且更加系统化，直接调整指标！

DSPy真的能取代传统的Prompt吗

DSPy确实是一个革命性的框架，旨在重新定义语言模型编程的格局。它的目标是自动化提示工程并简化语言模型优化，听起来很棒，对吧？但是，现实情况如何呢？

别着急下结论！虽然DSPy展示了令人兴奋的概念，如基于断言的回溯和自动提示优化，但目前它依然面临着一些重大挑战。DSPy的实现问题、文档不足、缺乏用户友好的设计，这些因素使得用户难以掌握和有效使用它。而且，DSPy对自身库定义的提示的依赖限制了它的适用性，特别是在非英语场景中，这与它的基本前提相矛盾，我只是在演示的时候代码中出现中文，如果是生产环境使用，代码一律会使用英文，否则一定会有意想不到的错误。

还有拟选用的模型！国内很多模型的架构以及接口规则方面并非支持DSPy，在复杂一些的"Function call"（函数调用）时，大模型不一定都支持，即便支持也偶尔会出现这次支持，下次不一定支持的情况。所以，如果有开发方面远大的想法，一定要结合你希望的DSPy性能和大模型的输出情况反复测试，才能再做打算。

写到这里你可能会想：“你不是之前一直在介绍DSPy吗？”，是的，那些文章是我写的，是我带起来一波跟风者，很多人改改标题又发一遍，甚至代码都不曾改动。这里我要告诉你的是：在日新月异的AI时代，一定要用发展的观点，矛盾的观点看问题，既要看到积极的推动的力量，又要兼顾阻碍的因素；这样才能高歌猛进，屹立于船头。

往期推荐

别再写脆弱的prompt讨好LLM啦！快用DSPy拯救你宝贵的prompt思维，偷偷甩掉99%的人

ICLR2024重磅 | DSPy或将手写Prompt推进历史，悄悄学会DSPy，一线技术圈很缺你这类人才

重磅 | DSPy让你不写一句Prompt照样构建Agent，从此，你不再卑躬屈膝讨好LLM

告别手写Prompt怕DSPy学不会？10行代码捏一个Agent，用DSPy Optimizers帮你优化Prompt

NAACL2024最新：DSPy开发的教学机器人，不用手写Prompt，可自适应移情反馈

那么，我们应该如何看待DSPy呢？它确实为语言模型编程的未来带来了希望。对这种方法感兴趣的开发者应该密切关注它的进展，要综合考虑你正在进行的项目和它的兼容性。

这不能说是一条完整的策略，更像是在你冲动的想改变你传统开发的现状时的一种认知方面的提醒。DSPy想要彻底改变提示工程的雄心壮志目前受到了它不成熟的状态和实现挑战的阻碍。虽然它提出了创新的想法，但还不足以完全取代传统方法。

不要过早设定签名中的关键字

在DSPy中，基于类的签名可以让任务更清晰，desc和docstring关键词可以指导LMs理解输入的性质和输出的期望。

desc（描述）：这是一个简短的描述，通常用于InputField和OutputField。它就像是给你的输入或输出字段贴上的标签，简明扼要地说明这个字段是干什么用的。
docstring（文档字符串）：这是一个更详细的描述，通常用于类或函数的开头。它可以包含更多的信息，比如参数的详细说明、返回值的解释，甚至是使用示例。

但是，记住一点：这些关键词要简洁！为什么？因为我们要给DSPy优化器留足空间来优化提示。如果你把desc和docstring写得太详细，可能会过早地限制LMs，降低优化器的效率。所以，要清晰但不要过于详细，因为DSPy内置的优化器能比我们手动微调做得更好！是不是和传统的手写Prompt很类似？这个我在前一篇文章谈结构化prompt时也有一些介绍。

来看个例子：

#这种简洁的方式很好
class生成面试问题(dspy.Signature):

  """根据简历和职位描述生成面试问题。"""

  简历内容= dspy.InputField(desc="候选人的简历内容。")

  职位内容= dspy.InputField(desc="职位描述内容。")

  问题= dspy.OutputField(desc="与简历和职位相关的面试问题。")

# 这种过于详细的方式就是过早微调了

class生成面试问题(dspy.Signature):

  """生成深入的面试问题，探讨候选人的资格、经验以及与职位的潜在契合度，基于他们的简历和提供的职位描述。""" 

  简历内容= dspy.InputField(desc="候选人简历的文本，详细说明他们的技能、经验和教育背景。")

  职位内容= dspy.InputField(desc="职位描述的文本，概述所需资格、职责和公司信息。")

  问题= dspy.OutputField(desc="基于候选人简历和职位描述，提出与候选人是否适合该职位相关的开放性问题。")

选择一个与你的任务相符的内置模块！

DSPy有7个内置模块，它们为常见任务提供了快速和标准化的方式来与LMs交互。在使用之前，确保你的任务与它们的预定义功能相符。如果你的任务有独特的需求，你可以制作自定义模块来扩展DSPy的功能。当针对特定任务优化并利用DSPy的优势时，自定义模块可以在效率上与内置模块相媲美。不过，要注意，让自定义模块达到与内置模块相似的效率可能需要仔细的规划和测试。

让我们看看这7个内置模块和它们的最佳用例：

1. dspy.Predict - 最适合直接输入>输出任务

2. dspy.ChainOfThought - 最适合思维链推理

3. dspy.ChainOfThoughtWithHint - 最适合带额外提示的推理

4. dspy.MultiChainComparison - 最适合比较多个推理路径以找出最准确的一个

5. dspy.ProgramOfThought - 最适合通过迭代改进生成和执行Python代码

6. dspy.ReAct - 最适合组合思考、行动和观察的相关步骤

7. dspy.Retrieve - 最适合为给定查询检索前K个段落的信息

如果你认为这各模块对你很重要，需要更深入了解，评论区留言，我可以再写一些文章专题介绍。

确保训练集中输入标签区分正确！

DSPy是一个机器学习框架，所以它涉及训练集、开发集和测试集。对于复杂和独特的任务（比如你的任务太特殊，在HuggingFace ?数据集中找不到合适的），手动制作约10个例子是至关重要的。当然你也可以用约定输出格式的提示词来让大模型帮你写。这个初始动作确保了训练与独特需求相一致。但即使有正确的数据集，DSPy的有效性很大程度上取决于准确地将示例字段转换为训练集中的输入键。忽视指定输入或错误标记可能导致数据泄漏，使模型过拟合并在新数据上表现不佳。所以批次batch test对你的应用鲁棒性至关重要。

来看看正确和错误的输入标签规范例子：

#正确的输入标签区分

训练示例1 = dspy.Example(简历内容=简历内容, 职位内容=职位内容, 问题="在你的角色中...")

训练集 = [

训练示例1.with_inputs('简历内容', '职位内容'),

]

# 错误的输入标签区分

训练示例1 = dspy.Example(简历内容=简历内容, 职位内容=职位内容, 问题="在你的角色中...")

训练集 = [

训练示例1.with_inputs('简历内容', '问题'), #这个示例将标签'问题'作为输入包括在内

训练示例1.with_inputs('简历内容'), #这个示例从.with_inputs方法中省略了一个关键字段'职位内容'

]

Metric从简单开始迭代你的指标

几乎总是，你不可能一开始就把指标弄对，这就是为什么你必须从简单的东西开始，比如仅仅是"准确率"或"精确匹配"或"F1分数"，然后在此基础上构建。指标优化的巅峰是一种利用'trace'进行优化的迭代方法。高级迭代涉及使用'trace'验证每一步，确保程序的每个部分都对最终得分产生积极影响。这个严格的过程可以微调指标，使其真正反映系统性能，成为优化的强大工具。

看看这个使用'trace'值进行指标优化的例子：

def 验证面试回答(示例, 预测, trace=None):
    # 收集所有问题和AI生成的回答
    面试流程 = [示例.问题] + [输出.回答 for *_, 输出 in trace if '回答' in 输出]

    # 验证简洁性和非重复性
    简洁 = all(len(流程) <= 100 for 流程 in 面试流程)
    非重复 = all(not dspy.evaluate.answer_exact_match_str(面试流程[idx], 面试流程[:idx], frac=0.8) 
                for idx in range(1, len(面试流程)))

    return 简洁 and 非重复

# 在这里，trace参数访问LM采取的中间步骤，
# 收集每一步的输入和输出信息，然后
# 对它们进行简洁性和非重复性的验证检查。

选择哪个优化器

一般的经验法则是根据你拥有的数据量来选择正确的优化器：10个或更少的例子选BootstrapFewShot，但最好你至少要准备10个例子，50个例子选BootstrapFewShotWithRandomSearch，300+例子选MIPRO。上篇文章DSPy程序优化Prompt的五个重要教训，NLP 的未来不是修改Prompt，而是构建更高抽象级别的模块我介绍过他们即将发布MIPROv2。但是，优化器选择的最佳实践是选择一个最大化你的指标的优化器。这就是迭代的用武之地。使用不同的优化器和你的数据和指标运行几个实验，然后选择使程序输出与预期结果一致的优化器。最终，无论你有多少数据，重要的是优化程序以满足你的特定目标和标准。所以，最佳实践是选择一个在现实应用中保证更可靠和一致性能的优化器。

看看这个实现DSPy优化器的基本模板：

#导入优化器

from dspy.teleprompt import BootstrapFewShotWithRandomSearch, MIPRO, ...

# 配置标签

配置= dict(max_bootstrapped_demos=n, max_labeled_demos=n,

num_candidate_programs=n, num_threads=n)
# 设置优化器并编译

优化器= BootstrapFewShotWithRandomSearch(metric=你的指标, **配置)

优化后的程序= 优化器.compile(模块, trainset=你的训练集)

DSPy的文档和示例为开发者提供了坚实的基础，但这些最佳实践让你能更进一步！它们通过简化开发、确保模型的稳健性和最大化性能来释放DSPy的全部潜力。遵循这些最佳实践，你就能将DSPy开发推向更高层次，创造出利用这个框架真正力量的卓越应用程序！记住，Rome wasn't built in a day！持续学习和实践这些策略，你一定会在DSPy的世界中游刃有余。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业