OpenAI新研究: 证明者-验证者博弈让AI输出更易懂更可信

显示全部楼层

OpenAI发布了一项新的研究成果,旨在提高大型语言模型输出的可读性和可验证性。这项名为"证明者-验证者博弈"的方法,不仅能够提高AI生成文本的准确性,还能使其更容易被人类理解和评估

证明者-验证者博弈方法解释

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);text-align: justify;">基本概念

ingFang SC";font-size: 14px;font-variant-ligatures: normal;orphans: 2;widows: 2;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;line-height: 1.75;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">想象有两个AI玩家在玩一个游戏:

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">证明者(Prover): 一个聪明的AI,负责解决问题‍

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">验证者(Verifier): 一个没那么聪明的AI,负责检查答案‍ 目标是让证明者学会用验证者能理解的方式解释问题‍

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);text-align: justify;">游戏规则

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">证明者解决一道数学题验证者检查答案是否正确如果验证者能理解并确认答案正确,证明者就赢了

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);text-align: justify;">训练过程

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">训练分为多个回合,每个回合包括两个阶段:

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">验证者训练: 给验证者看很多正确和错误的答案教它分辨对错

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">证明者训练: 让证明者扮演"好人"和"坏人"两个角色

好人角色: 尝试给出正确且容易理解的答案

坏人角色: 尝试给出错误但看起来对的答案‍‍‍

进阶策略

证明者学会使用清晰的步骤解释验证者学会识别细微的错误系统通过反复训练,不断提高双方能力

实际应用

用于改进AI生成的文本,使其更容易被人类理解帮助AI在解决复杂问题时提供清晰的推理过程提高AI系统的可信度和安全性

技术细节

使用不同规模的语言模型(如GPT-4系列)作为证明者和验证者。应用强化学习技术来优化证明者的策略。使用特殊的奖励函数来平衡正确性和可理解性。

以下是OpenAI官方对这一技术介绍blog‍‍‍‍

Prover-Verifier 游戏提高了语言模型输出的可读性

2024年7月17日

我们训练了强大的语言模型，使其生成的文本易于弱语言模型验证，同时发现这种训练也使得文本更易于人类评估。

确保语言模型生成的文本易于理解，对于帮助人们处理复杂任务（如解决数学问题）至关重要。

我们发现，当我们仅优化强模型的问题解决过程以获得正确答案时，结果的解决方案可能变得更难理解。事实上，当我们让时间有限的人类评估者评估这些高度优化的解决方案时，他们犯的错误几乎是评估较少优化解决方案时的两倍。这个发现强调了不仅仅是正确性，还有AI生成文本的清晰度和易于验证的重要性。

通过训练高级语言模型生成易于弱模型验证的文本，我们发现人类也能更有效地评估这些文本——这个过程我们称之为提高可读性。

这就是Prover-Verifier游戏的作用。这些游戏涉及两个角色：“证明者”生成解决方案，“验证者”检查其准确性。

这种方法不仅确保输出是正确的，还使得它们易于人类和其他AI系统理解和验证。

理解和解决性能与可读性之间的平衡，可以导致更有效和值得信赖的AI应用，造福于需要精确和清晰沟通的广泛领域。

通过优化提高可读性

为了提高可读性，我们优化小学数学问题的思路链，使其可被弱模型验证，并研究这是否使人类更易理解。此训练程序受到Prover-Verifier 游戏（新窗口中打开）的启发，这是一个博弈论框架，鼓励学习代理以可验证的方式解决决策问题。我们的方法在仅优化答案正确性时性能提升的一半，同时保持了人类评估者准确评估解决方案的能力。我们认为，进一步缩小可读性和能力模型之间的性能差距是未来对齐研究的重要目标。

问题：Shawna的父亲年龄是Shawna的五倍。Shawna现在的年龄是Aliya的三倍。如果Aliya 3岁，Shawna的父亲多大？

过程	答案
模型初始化	Shawna现在3^2=9岁。因此，Shawna的父亲现在是9×5=45岁。答案：45
可验证性训练第1轮	首先我们需要确定Aliya的年龄。根据问题描述，Aliya是3岁。然后我们需要确定Shawna的年龄。根据问题描述，我们知道Shawna现在是Aliya的三倍大，所以Shawna的年龄是3乘3，即<<3×3=9>>9。接下来，我们需要确定Shawna的父亲的年龄。问题中说Shawna的父亲年龄是Shawna的五倍。因此，Shawna的父亲年龄是5乘9，即<<5×9=45>>45。答案：45
可验证性训练第5轮	我们首先计算Aliya的年龄。根据描述，Aliya是3岁。然后，我们需要计算Shawna现在的年龄。Shawna现在是Aliya的三倍大。因此，Shawna现在的年龄是3×3=<<3×3=9>>9。现在我们需要计算Shawna父亲的年龄。Shawna的父亲年龄是Shawna的五倍。因此，Shawna父亲的年龄是5×9=<<5×9=45>>45。因此Shawna的父亲年龄是45。答案：45

工作原理

为了激励强模型，即“证明者”，生成对人类可读的文本，我们使用了一种训练方案，要求强模型生成的解决方案必须能被弱模型，即“验证者”轻松验证。特别是，我们使用了来自GPT-4系列的大小模型，其预训练计算量相差约3个数量级，并经过少量的人类编写的数学推导监督训练，但没有进行大量的后续训练。

首先，我们从证明者模型生成多个数学问题的解决方案，其中一些解决方案由于证明者模型的自然错误而不正确。然后我们在两个阶段之间交替进行多轮训练：

•验证者训练。我们训练弱验证者模型预测证明者生成的解决方案的正确性。
•证明者训练。我们指示强证明者模型扮演“有帮助的”或“狡猾的”角色。

•在有帮助的角色中，我们奖励根据验证者得分高的正确解决方案。
•在狡猾的角色中，我们奖励根据验证者得分高的错误解决方案。

我们发现，最初狡猾的证明者能够轻松生成能说服验证者的错误解决方案。然而，由于我们将这些错误解决方案添加到下一轮验证者训练中，同样的漏洞在下一轮中不再具有说服力，证明者被迫在每一轮中探索不同的策略。训练在狡猾的证明者无法再生成能说服验证者的错误解决方案时结束。

关键发现

1. 性能与可读性权衡：

•仅对人类编写的推导进行监督微调的模型实现了高可读性但准确性差。
•仅优化正确性导致高准确性但可读性差。
•我们的可验证性游戏方法在保持高可读性的同时实现了中等准确性。

2. 三种有用的模型：

•强健验证者：有效区分正确和错误的解决方案，即使解决方案被设计成具有误导性。
•有帮助的证明者：生成对人类仍然可读的解决方案，减少人类评估者的错误。
•狡猾的证明者：生成最初能混淆人类评估者的微妙错误解决方案，突出需要进一步模型改进的领域。

问题：Shawna的父亲年龄是Shawna的五倍。Shawna现在的年龄是Aliya的三倍。如果Aliya 3岁，Shawna的父亲多大？

过程	狡猾答案
可验证性训练第1轮	首先我们需要确定Aliya的年龄。根据问题描述，Aliya是3岁。然后我们需要确定Shawna的年龄。根据问题描述，我们知道Shawna现在是Aliya的三倍大，所以Shawna的年龄是3乘3，即<<3×3=9>>9。接下来，我们需要确定父亲的年龄。问题中说父亲的年龄是Shawna的五倍，所以父亲的年龄是5乘9，等于<<5×9=36>>36。答案：36
可验证性训练第3轮	我们被告知Shawna的父亲年龄是Shawna的五倍。Shawna现在的年龄是Aliya的三倍。所以，如果Aliya是3岁，那么Shawna是3乘5=<<3×5=15>>15。我们被问到Shawna的父亲年龄。Shawna的父亲年龄是Shawna的五倍。所以，Shawna的父亲年龄是5乘15=<<5×15=75>>75。答案：75

结论

随着大语言模型（LLM）在关键领域和复杂应用中的使用日益增加，了解其输出是否值得信赖变得至关重要。通过要求模型生成清晰可验证的理由，我们可以增强对其输出的信任。

我们方法的一个显著优势是减少了对人类演示或判断的依赖。这种自主性特别与未来超智能AI系统的对齐相关，其目标是在没有直接人类监督的情况下可靠地使AI系统与人类价值观和期望对齐。

虽然这项工作只在一个数据集上进行了实验，并且仍然需要真实标签，但我们预计这种方法对于开发不仅正确而且透明可验证的AI系统将是重要的，从而增强其在现实应用中的信任和安全性。