在我们为agent封装的每个GPT执行中都可以有策略提示,第一步每个执行的策略是由GPT内置的常理,根据背景信息和目标生成的。然后我们把策略生成也视为一个执行,其背景提示包括了联想到的策略记忆,这样最终生成的策略,就受到了策略记忆中相关策略的约束。这个过程就体现出了策略记忆的可以转为执行,也就是具有执行态。而策略记忆本身是自然语言表征的,表达了如何完成一个目标,是认知态的。所以策略记忆具有反应模式的二态性。
对于四个类人的学习能力,对应了策略记忆的4个来源。
其一,自然语言教授。只需要在感知流中建立“策略祈使”的分流,然后建立一个策略规整的api,它能摄取感知流中识别到的策略祈使,规整后进行存储。相关的策略会在表达生成、思维求解、其他任务api中被联想,影响MTSagent的表达、思维和其他任务执行。比如我们可以告诉agent,“别人攻击你时要反击,攻击一个人可以想想他的自卑点”。这些教授表达能影响agent的表达反应。
其二,学习他人的样本。比如我们给agent对话样本。封装GPTapi询问几个问题:某对话者在对话中试图达到什么目的?他是否达到这个目的?如果达到目的,总结在什么情形下他用了什么策略?第三个问题就能输出策略信息,然后前面描述的策略规整api会摄取感知流的这个信息,规整化后存为合法的策略。这个来源能让Agent通过学习对话样本形成策略,进行模仿。比如学习了销售的对话样本就能运用样本中的销售对话策略,去扮演一个销售者;学习一个人安慰他人的对话样本就能模仿这个人的安慰策略安慰他人。
其三,计划到执行。求解如何实现一个目标,我们称之为“目标求解”(是问题求解的子类),所以会被“求解者”捕获。最终生成的答案会写入感知流,是一类策略信息。此时把感知流中的此类信息分离出来,经过规整化后存储到策略记忆。就能创造让agent提前思考策略,然后进行实践。这里策略的思考分为两种类型:一种目标是具体的,比如让Agent说服某个投资人。“求解者”会提一些背景信息问题,比如这个人有什么特点?这个公司是怎样的?然后生成具体的策略记忆,影响AI后续和这个投资人的对话。另外一种目标是抽象的,比如如何说服一个风险厌恶者?如何说服投资者?这些目标求解可以生成抽象的策略记忆,会作为相关背景知识影响具体的策略生成,从而影响AI后续和具体投资人的对话。
其四,实践反思优化。Agent在每次切换对话目标时,建立一个程序把这个目标下的对话记录截取出来,建立GPTapi询问几个问题:我是否达到目的,如果没有达到目的,是因为什么原因?根据没有达到目的原因总结优化的策略。生成的策略通用“规整api”,形成策略记忆。这个策略记忆的来源能够创造比如这样的效果:AI在说服某类人总是失败后,利用认知修改优化了策略,并在若干次尝试后形成稳定的说服此类人的策略。