我要投稿

OpenAI新研究: 证明者-验证者博弈让AI输出更易懂更可信

发布日期：2024-07-18 16:51:14 浏览次数： 2184

OpenAI发布了一项新的研究成果,旨在提高大型语言模型输出的可读性和可验证性。这项名为"证明者-验证者博弈"的方法,不仅能够提高AI生成文本的准确性,还能使其更容易被人类理解和评估

证明者-验证者博弈方法解释

基本概念

想象有两个AI玩家在玩一个游戏:

证明者(Prover): 一个聪明的AI,负责解决问题‍

验证者(Verifier): 一个没那么聪明的AI,负责检查答案‍ 目标是让证明者学会用验证者能理解的方式解释问题‍

游戏规则

证明者解决一道数学题验证者检查答案是否正确如果验证者能理解并确认答案正确,证明者就赢了

训练过程

训练分为多个回合,每个回合包括两个阶段:

验证者训练: 给验证者看很多正确和错误的答案教它分辨对错

证明者训练: 让证明者扮演"好人"和"坏人"两个角色

好人角色: 尝试给出正确且容易理解的答案

坏人角色: 尝试给出错误但看起来对的答案 ‍‍‍

进阶策略

证明者学会使用清晰的步骤解释验证者学会识别细微的错误系统通过反复训练,不断提高双方能力

实际应用

用于改进AI生成的文本,使其更容易被人类理解帮助AI在解决复杂问题时提供清晰的推理过程提高AI系统的可信度和安全性

技术细节

使用不同规模的语言模型(如GPT-4系列)作为证明者和验证者。应用强化学习技术来优化证明者的策略。使用特殊的奖励函数来平衡正确性和可理解性。

以下是OpenAI官方对这一技术介绍blog

Prover-Verifier 游戏提高了语言模型输出的可读性

2024年7月17日

我们训练了强大的语言模型，使其生成的文本易于弱语言模型验证，同时发现这种训练也使得文本更易于人类评估。

确保语言模型生成的文本易于理解，对于帮助人们处理复杂任务（如解决数学问题）至关重要。

我们发现，当我们仅优化强模型的问题解决过程以获得正确答案时，结果的解决方案可能变得更难理解。事实上，当我们让时间有限的人类评估者评估这些高度优化的解决方案时，他们犯的错误几乎是评估较少优化解决方案时的两倍。这个发现强调了不仅仅是正确性，还有AI生成文本的清晰度和易于验证的重要性。

通过训练高级语言模型生成易于弱模型验证的文本，我们发现人类也能更有效地评估这些文本——这个过程我们称之为提高可读性。

这就是Prover-Verifier游戏的作用。这些游戏涉及两个角色：“证明者”生成解决方案，“验证者”检查其准确性。

这种方法不仅确保输出是正确的，还使得它们易于人类和其他AI系统理解和验证。

理解和解决性能与可读性之间的平衡，可以导致更有效和值得信赖的AI应用，造福于需要精确和清晰沟通的广泛领域。

通过优化提高可读性

为了提高可读性，我们优化小学数学问题的思路链，使其可被弱模型验证，并研究这是否使人类更易理解。此训练程序受到Prover-Verifier 游戏（新窗口中打开）的启发，这是一个博弈论框架，鼓励学习代理以可验证的方式解决决策问题。我们的方法在仅优化答案正确性时性能提升的一半，同时保持了人类评估者准确评估解决方案的能力。我们认为，进一步缩小可读性和能力模型之间的性能差距是未来对齐研究的重要目标。

问题：Shawna的父亲年龄是Shawna的五倍。Shawna现在的年龄是Aliya的三倍。如果Aliya 3岁，Shawna的父亲多大？

过程	答案
模型初始化	Shawna现在3^2=9岁。因此，Shawna的父亲现在是9×5=45岁。答案：45
可验证性训练第1轮	首先我们需要确定Aliya的年龄。根据问题描述，Aliya是3岁。然后我们需要确定Shawna的年龄。根据问题描述，我们知道Shawna现在是Aliya的三倍大，所以Shawna的年龄是3乘3，即<<3×3=9>>9。接下来，我们需要确定Shawna的父亲的年龄。问题中说Shawna的父亲年龄是Shawna的五倍。因此，Shawna的父亲年龄是5乘9，即<<5×9=45>>45。答案：45
可验证性训练第5轮	我们首先计算Aliya的年龄。根据描述，Aliya是3岁。然后，我们需要计算Shawna现在的年龄。Shawna现在是Aliya的三倍大。因此，Shawna现在的年龄是3×3=<<3×3=9>>9。现在我们需要计算Shawna父亲的年龄。Shawna的父亲年龄是Shawna的五倍。因此，Shawna父亲的年龄是5×9=<<5×9=45>>45。因此Shawna的父亲年龄是45。答案：45

工作原理

为了激励强模型，即“证明者”，生成对人类可读的文本，我们使用了一种训练方案，要求强模型生成的解决方案必须能被弱模型，即“验证者”轻松验证。特别是，我们使用了来自GPT-4系列的大小模型，其预训练计算量相差约3个数量级，并经过少量的人类编写的数学推导监督训练，但没有进行大量的后续训练。

首先，我们从证明者模型生成多个数学问题的解决方案，其中一些解决方案由于证明者模型的自然错误而不正确。然后我们在两个阶段之间交替进行多轮训练：

• 验证者训练。我们训练弱验证者模型预测证明者生成的解决方案的正确性。
• 证明者训练。我们指示强证明者模型扮演“有帮助的”或“狡猾的”角色。

• 在有帮助的角色中，我们奖励根据验证者得分高的正确解决方案。
• 在狡猾的角色中，我们奖励根据验证者得分高的错误解决方案。

我们发现，最初狡猾的证明者能够轻松生成能说服验证者的错误解决方案。然而，由于我们将这些错误解决方案添加到下一轮验证者训练中，同样的漏洞在下一轮中不再具有说服力，证明者被迫在每一轮中探索不同的策略。训练在狡猾的证明者无法再生成能说服验证者的错误解决方案时结束。

关键发现

1. 性能与可读性权衡：

• 仅对人类编写的推导进行监督微调的模型实现了高可读性但准确性差。
• 仅优化正确性导致高准确性但可读性差。
• 我们的可验证性游戏方法在保持高可读性的同时实现了中等准确性。

2. 三种有用的模型：

• 强健验证者：有效区分正确和错误的解决方案，即使解决方案被设计成具有误导性。
• 有帮助的证明者：生成对人类仍然可读的解决方案，减少人类评估者的错误。
• 狡猾的证明者：生成最初能混淆人类评估者的微妙错误解决方案，突出需要进一步模型改进的领域。

问题：Shawna的父亲年龄是Shawna的五倍。Shawna现在的年龄是Aliya的三倍。如果Aliya 3岁，Shawna的父亲多大？

过程	狡猾答案
可验证性训练第1轮	首先我们需要确定Aliya的年龄。根据问题描述，Aliya是3岁。然后我们需要确定Shawna的年龄。根据问题描述，我们知道Shawna现在是Aliya的三倍大，所以Shawna的年龄是3乘3，即<<3×3=9>>9。接下来，我们需要确定父亲的年龄。问题中说父亲的年龄是Shawna的五倍，所以父亲的年龄是5乘9，等于<<5×9=36>>36。答案：36
可验证性训练第3轮	我们被告知Shawna的父亲年龄是Shawna的五倍。Shawna现在的年龄是Aliya的三倍。所以，如果Aliya是3岁，那么Shawna是3乘5=<<3×5=15>>15。我们被问到Shawna的父亲年龄。Shawna的父亲年龄是Shawna的五倍。所以，Shawna的父亲年龄是5乘15=<<5×15=75>>75。答案：75