我要投稿

进化中的AI提示优化：从猴子打字到微分优化

发布日期：2024-06-21 07:12:32 浏览次数： 2062 作者：小思辩

“ 预测未来的最好方法就是去创造未来。-- 彼得·德鲁克”

—

如何给数字排序？

假设我们有100个数，如何把它们从小到大排列呢？计算机背景的人可能已经想到很多答案，比如冒泡排序、归并排序、快速排序等。但你知道有一种更加通俗易懂的排序方法吗？那就是Bogo排序。

Bogo排序的工作方式很简单却荒谬：随机生成一个排列，然后检查从第一个数开始检查，看是否后面的数比它大。如果没有，就再次随机生成一个排列，如此循环，直到最终排列正确。这种方法不仅效率极低，而且没有任何方向性，就像猴子在打字机上胡乱敲击，试图偶然敲出一篇莎士比亚的剧本。

Bogo排序算法的效率纯靠运气

—

优化的迷宫：AI提示工程的困境

LLM（大型语言模型）的提示优化似乎还处于类似Bogo排序的阶段。大多数情况下，我们会尝试设计出几个不同的提示，然后进行评估，选择结果最好的那个。这种启发式的方法不仅效率低下，还极具随机性，无法保证找到最优解。优化（Optimization）和评测（Evaluation）在这种情况下似乎是各干各的，缺乏有效的联动。随着优化的难度越来越大，这种拍脑袋的优化方法将会越来越艰难。

—

优化闭环的初步形成

随着技术的发展，我们已经看到了改变这一现状的希望。斯坦福大学自然语言研究组提出了一个叫DSPy的框架（论文题目《DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines》，详情见https://arxiv.org/pdf/2310.03714）。这个框架引入了一种针对特征工程的Domain-Specific Language (DSL)，使基于提示工程的优化更加系统化。

乍一眼看去，这个框架的风格和PyTorch很相似。用户可以像写正常的python语言那样进行开发。比如一个思维链可以写成下面这个样子：

基于这个框架的系统可以自动化Few-Shot学习的方法。通过对提示的自动优化，使得提示工程的过程不再像Bogo排序那样毫无方向。尽管Dspy的优化仍然属于离散优化或网格搜索的层面，但它通过形成自我改进的管道，使系统优化变得更加高效和系统化。

—

Prompt的微分优化

我们如何实现更细粒度的优化呢？这正是TextGrad所要解决的问题。TextGrad展示了如何将深度学习中的微分优化应用到提示优化中。TextGrad（论文题目《TextGrad: Automatic "Differentiation" via Text》，详情见：https://arxiv.org/pdf/2406.07496）的工作方式让我想起了熟悉的PyTorch微分优化系统。

PyTorch文风很像，简直和PyTorch1.0版本之前的语法一模一样

通过定义一个目标函数，并计算每个提示的表现，我们可以使用梯度下降等优化算法，逐步调整提示，直到找到最佳解决方案。这种方法不仅提高了效率，还使优化过程更加科学和系统化。

就像神经网络利用基于微分和反向传播的优化方法，我们也可以将同样的方法应用到整个AI系统中，使其更加高效和智能。

然而，我们需要认识到，当前 TextGrad 中的差分优化过程仍然只是对真正数值优化的模仿。在这种情况下，损失函数来源于语言模型的输出，这意味着它不是纯粹的数值，而是文本质量的反映。这种内在的差异导致优化过程缺乏传统数值优化方法的可控性、可量化性和方向性。

例如，TextGrad 中的损失函数（请参见代码：https://github.com/zou-group/textgrad/blob/main/textgrad/loss.py#L44-L52）显示，修正后的提示质量在迭代过程中可能会波动。这种波动表明了一个重要的改进领域。迭代过程可能会导致提示回到以前的状态，类似于梯度下降中“损失振荡”的概念。

返回的损失是LLM的修改建议，还不具有传统数值优化的可量化性以及方向性