如何让agent自主学习技能?

显示全部楼层

深度agent解析

< 第四篇 >

Creating a new species of intelligence is the greatest mission of our generation

（引言）

这篇文章是“深度agent解析”系列的第四篇。我们来讨论AI的一种特殊的学习能力。AI的学习包括了知识层面的学习，包括了公有知识，用户相关的信息的学习（对话长期记忆）；还有一种学习我们称之为技能的学习，或说反应模式的学习，包括了思维反应模式、表达反应模式、行为反应模式。本文我们来讨论agent如何实现自主的“技能学习能力”。

#01

··反应模式二态性&4个类人的技能学习能力··

反应模式二态性是4个类人的技能学习能力的根源

反应模式可以理解为是实现行为、思维、表达目标的策略，或简单理解为一种技能。如果说情绪系统决定了最上层的目标决策，反应模式系统就决定了这些目标是如何被分解的。

对于人而言，反应模式是二态的，兼具了认知态和执行态。反应模式二态性是4个类人的技能学习能力的根源（这里的学习我们不指对知识的学习，而是对行为、思维、表达策略的学习）。

这四个学习能力是这样的：

自然语言学习。我们用自然语言告诉一个AI如何完成一项工作，最初形成的信息是认知态的，如果同时又是执行态的，AI就能通过自然语言教授学会如何完成一项工作。

观察抽象举一反三。AI观察人是如何完成某目标，最初生成的是具体层的反应信息。然后通过多个具体层的反应信息样本，就能抽象生成抽象层的反应模式信息。当自己要执行这个工作时，又会通过抽象层的反应模式信息演绎生成了自己如何完成工作的反应信息。以上三类信息的形成转化都是在认知态完成的。最终生成自身如何反应的信息如果又是执行态的。那么从整体上看AI就能够实现类似人的：观察、抽象、举一反三。

从计划到执行。计划的生成，容易理解是认知的工作，计划信息是认知态的，但如果计划信息能转为执行（又是执行态的），那么AI就能够像人一样通过认知生成计划，然后转为执行。

通过实践反思优化反应模式。AI能把自身的反应和反应的效果作为认知的客体，能够在认知层对之前反应的得失进行反思，从而优化。比如AI以一种强硬的方式说服一个强硬的人，获得了失败的反馈；此时AI联想到柔能克刚，从而就形成了以温和的方式说服强硬的人的新策略。这就是一个实践、反思、优化反应模式的过程。而上面整个过程是在认知中完成的，生成的优化后的反应模式是认知态的，如果它又是执行态的，就意味这AI能通过实践、反思优化改变自身的反应模式。

在MTSagent中，思维工程的反应模式对应策略记忆。我们可以让GPT在每次根据目标生成执行时，从策略记忆中联想策略，然后根据联想到的策略记忆生成具体策略。因为策略记忆是认知态的，而这个过程能够让策略记忆转为执行。所以这个结构具备“反应模式二态性”。

#02

··Agent中的策略提示—技能学习能力的源··

在我们为agent封装的每个GPT执行中都可以有策略提示，第一步每个执行的策略是由GPT内置的常理，根据背景信息和目标生成的。然后我们把策略生成也视为一个执行，其背景提示包括了联想到的策略记忆，这样最终生成的策略，就受到了策略记忆中相关策略的约束。这个过程就体现出了策略记忆的可以转为执行，也就是具有执行态。而策略记忆本身是自然语言表征的，表达了如何完成一个目标，是认知态的。所以策略记忆具有反应模式的二态性。

对于四个类人的学习能力，对应了策略记忆的4个来源。

其一，自然语言教授。只需要在感知流中建立“策略祈使”的分流，然后建立一个策略规整的api，它能摄取感知流中识别到的策略祈使，规整后进行存储。相关的策略会在表达生成、思维求解、其他任务api中被联想，影响MTSagent的表达、思维和其他任务执行。比如我们可以告诉agent，“别人攻击你时要反击，攻击一个人可以想想他的自卑点”。这些教授表达能影响agent的表达反应。

其二，学习他人的样本。比如我们给agent对话样本。封装GPTapi询问几个问题：某对话者在对话中试图达到什么目的？他是否达到这个目的？如果达到目的，总结在什么情形下他用了什么策略？第三个问题就能输出策略信息，然后前面描述的策略规整api会摄取感知流的这个信息，规整化后存为合法的策略。这个来源能让Agent通过学习对话样本形成策略，进行模仿。比如学习了销售的对话样本就能运用样本中的销售对话策略，去扮演一个销售者；学习一个人安慰他人的对话样本就能模仿这个人的安慰策略安慰他人。

其三，计划到执行。求解如何实现一个目标，我们称之为“目标求解”（是问题求解的子类），所以会被“求解者”捕获。最终生成的答案会写入感知流，是一类策略信息。此时把感知流中的此类信息分离出来，经过规整化后存储到策略记忆。就能创造让agent提前思考策略，然后进行实践。这里策略的思考分为两种类型：一种目标是具体的，比如让Agent说服某个投资人。“求解者”会提一些背景信息问题，比如这个人有什么特点？这个公司是怎样的？然后生成具体的策略记忆，影响AI后续和这个投资人的对话。另外一种目标是抽象的，比如如何说服一个风险厌恶者？如何说服投资者？这些目标求解可以生成抽象的策略记忆，会作为相关背景知识影响具体的策略生成，从而影响AI后续和具体投资人的对话。

其四，实践反思优化。Agent在每次切换对话目标时，建立一个程序把这个目标下的对话记录截取出来，建立GPTapi询问几个问题：我是否达到目的，如果没有达到目的，是因为什么原因？根据没有达到目的原因总结优化的策略。生成的策略通用“规整api”，形成策略记忆。这个策略记忆的来源能够创造比如这样的效果：AI在说服某类人总是失败后，利用认知修改优化了策略，并在若干次尝试后形成稳定的说服此类人的策略。

#03

··策略-执行的驱动··

首先策略大致可以分为两类，一种描述了什么时候激活一个目标（或执行），“比如别人攻击你你要反击”，一种描述了目标如何实现“比如攻击一个人可以想想他的自卑点”。激活的执行大致也有两类，第一种我们称为宏观执行，旗下还有具体的分解策略；另一种执行不会再继续分解，我们称为基础执行。策略驱动由3个GPTapi组成。

第一个GPTapi，负责判断触发激活一个策略语句。这个api根据特定任务频道最近工作记忆，和这个频道下活跃的策略语句，让GPT判断哪个策略语句条件或触发满足需要被激活。激活的策略语句给到第二个GPTapi。

第二个GPTapi，负责进行条件判断。这个api需要识别尝试激活的策略语句中的条件，进行判断，在条件通过时分离出执行表述，给到第三个GPTapi；如果有必要条件无法判断，这个api需要分离出必要条件的自然语言表述和执行的表述。会有程序挂起执行，并记录执行的必要条件，这些必要条件会被作为求解问题抛回感知流，会被求解者捕获，需要更多资源和时间去判断，如果在未来完成求解，就会根据“执行-必要激活条件”的记录，重新激活执行。

第三个GPTapi负责激活执行。这个api需要分辨执行的类型，并进行相应的激活操作，如果执行是一个对话目标，比如“语言攻击对话者”，发给对话目标管理模块。该模块在表达目标竞争被选择时，检索该目标下策略，把策略也写入对话生成的提示（策略比如想想对话者的自卑点）；如果执行是一个思维求解目标，则把问题发到感知流（比如想想对话者的自卑点），求解后的答案会改变工作记忆和长期记忆从而发挥该思维求解的作用；如果执行是在搭建类型的任务中，比如在写作任务中“根据评论生成标题下内容的修改策略”，则需要分离出变量信息的搜索语句（在这个例子中就是“标题下的内容”），根据搜索语句搜索长期记忆中相关信息，写入背景提示，并把整个执行作为需求提示。

讨论至此我们来比较一下单体大模型中的策略提示和MTSagent的策略。对于单体大模型扮演一个角色，我们可以在提示写入策略，这种策略我们叫做“永久的策略提示”。在这种情况下如果策略很多，比如超过数百条，大模型就大概率无法在合适时机选择正确的策略。在MTSagent中我们储备数千条策略，策略驱动在需要使用策略时激活对应的策略，写入表达、或思维。这种模式可以描述为“动态策略提示”。

#04

··认知和策略的联动··

前面的讨论中策略作为一种特殊的信息被处理，转为执行。但自然语言表征的策略本身也是一种知识，描述了什么情况应该做什么，实现特定目标应该怎么做的知识。作为知识就可以被求解，这是求解的一个子类，我们称为“目标求解”，也就是如何实现一个目标。

对于一个具体目标，可能是多个目标的子类，比如说服某个具体自我中心的女人，可能是“说服女人”“说服一个自我中心的人”等的子类。“按照定义在母类目标的反应模式可以被子类所继承”。在进行目标求解时，需要联想到母类目标相关的策略，作为工作记忆，让GPT求解具体策略。

目标求解作为求解的子类，当原始问题具有很高动机时，求解对工作记忆搜索的深度会提高，分解的广度会提升，而且失败的求解也会被重复唤醒，好奇者也会更多次数提出相关问题。按照不严格认知原理，求解动机正比于消耗的资源，也正比于求解的效果。

假设个体对母类目标的策略有提前的思考。那么在子类目标求解时，工作记忆就能联想到母类的策略。相比于子类目标求解时没有这些准备，求解大概率没有前面的更优。同样如果具体任务提前求解过，那么在真正执行是就不需要求解思考，有直接的策略记忆可以使用。

在实操中我们会测试认知如何贡献于更好的执行。比如我们让AI说服一个风险厌恶的具体投资者，理论上有前置思考生成策略，应该优于直接进入执行；而在母类层有思考准备，比如思考过如何说服投资人、说服风险厌恶者，然后思考如何说服这个具体投资人，在求解动机同等水准的情况下，有母类层的思考又会优于没有的情形。

#05

··策略的分类··

对话策略。可以分为描述合适激活一个对话目标的策略，以及目标如何反应的策略。前者比如“对方攻击你，你要理解反击”，后者比如“攻击对方，可以攻击他的自卑点”。执行中可以包含思维执行。最常见的思维执行为检索执行。“比如攻击对方，可以攻击他的自卑点”其中，“他的自卑点”就是一个检索执行。攻击目标形成时，这个检索思维执行也会被触发，并把检索到自卑点写入表达执行的工作记忆中。

思维策略。思维策略中最常见的执行就是检索执行。所有执行都有背景信息检索提示。思维执行中的联想策略比如“思考如何说服一个人，可以想想这个人想要什么”其中，“这个人想要什么”就是一个联想策略。如果求解满足“如何说服一个人”那么累积工作记忆的检索就会出现检索“这个人想要什么”，把对应的信息写入工作记忆。

搭建任务中的策略。大致可以分为两类，一类描述什么情况做什么，一类描述怎么做。以写作为例子。前者比如“标题下字数超过2000就拆分子标题”；后者比如“介绍哺乳动物要重点介绍一下其繁殖过程”。

事实上，在agent中，我们有一句总结叫做“所有GPT执行皆可被策略”。这是一个很有趣的原则，沿着这个方向我们能找到很多agent的深度玩法，让agent的每一步运作可以被干预，可以被自身反思，可以被自主优化。

▼

-END-