超越GPT的写作agent

显示全部楼层

深度agent解析

< 第七篇 >

Creating a new species of intelligence is the greatest mission of our generation

（引言）

这篇文章是“深度agent解析”系列的第七篇。这盘文章我们来探索一种新的GPT写作的模式。

我们知道GPT可以写文章。因为我们可以一次性把文章的要求和素材装入通用大模型提示，这就好比一次性把所有搭建用的材料给到GPT，让它按照需求搭建一个屋子。但如果是一本书，其素材的规模远远超过了提示的容量。不仅仅如此，即使是GPT4，70k的提示容量也是个理论值，因为真正把这么大规模的素材写入提示，任务内的注意力会出现问题——信息没有办法被使用到合适的地方。超长文本提示GPT，容许的提示规模只是一个模糊度量，对提示信息的使用深度才是关键。目前只要能满足文本内检所需，就认为提示是有效的，但这只是最浅层的文本信息使用。所以即使有超长文本模型，单体大模型还是摆脱不了长篇幅写作的限制，作者思路观念忠实度的问题，以及修改自由度的限制。

接下来我们就来考察agent思路下，我们如何看待写作任务，如何重构机器写作的过程。

#01

··Agent的写作思路··

在agent中，面对大型搭建类目标，我们让大模型在脑海中扮演不同角色的工人：比如在大型写作任务，比如写书中我们有“规划者”负责输出修改目录，有“工人”负责根据标题搜集长期记忆中的素材生成标题下内容，也有“工人”根据话题搜索闪光思想，生成内容，然后根据内容生成标题；于是也有“工人”根据新增的标题修改已有的目录。通过这种方式，每个工人只需要在长期记忆的“任务画布”中每次完成一个单元任务，就能慢慢地把要搭建的大厦搭建修缮出来。

这边的关键是如何定义单元任务，如何定义单元任务的工作记忆搜集，如何决定单元任务的触发，也就是单元任务间相互配合的逻辑。换种方式说就是在搭建类任务中，我们如何定义每类“工人”的工作，以及如何定义他们相互配合的逻辑；更进一步agent如何自己为一种新任务定义思维中的“工人”，并组织他们的工作。

#02

··写作agent的存储&存储生成逻辑··

我们把类似的写作的搭建类任务理解为“GPT扮演的角色在配合中对任务画布长期记忆一步步操作最终完成搭建大厦的过程。”所以第一步是确定长期记忆的维度。为了与GPTapi配合，我们创造了一种“描述-内容”型的存储，前面是对信息的类型描述，后面是具体的内容。

之所以采用这种存储，是因为搭建类任务的GPTapi角色的一般逻辑是从已有半成品的“大厦”确定加工信息，使用的素材信息、寻找相关辅助信息，然后找到加工需求，进行加工修改“大厦”存储。无论确定加工信息、素材信息、相关辅助信息、还是确定需求信息，都是从已有的存储中搜信息。而这些搜索语句在GPTapi角色的模板中都是定义在母类层，而且都是描述型的。比如“根据XX标题下的修改策略，修改XX标题下的内容”。为了方便搜索，在写作任务中，我们创建了以标题为中心的描述型存储。包括了：

X标题下子标题：1、XX，2、XX
X标题下直接内容：具体内容文本
X标题下评价：具体评价文本
X标题下修改策略：具体修改策略文本
X标题字数：字数
X标题的字数要求：字数
X标题的素材：具体的素材文本
X标题要求：具体的要求文本
X标题的素材需求：具体的素材需求文本
X标题的修改次数：次数

确定了存储后，我们就可以思考这些存储相互生成的逻辑是什么，这里设计了一个“写作运算逻辑”包括了：

检测：X标题下字数为0（说明什么都还没做），激活“素材需求生成api”，第一步生成的是问题，通过记忆搜索（记忆没有搜到GPT搜索，后面可以用网络api搜索），生成“X标题下素材”
检测：“X标题下素材”有内容，激活“内容生成api”，生成“X标题下内容”
检测：X标题修改次数少于1次（包括没搜到的情况）。就激活一次“评级生成api”，生成“X标题评价”，增加+1“X标题修改次数”
检测：X标题下有评价，激活“修改策略生成api”，生成“X标题下修改策略”，删除“X标题下评价”
检测：X标题下有修改策略，激活“内容修改api”对内容进行修改。生成“X标题下内容”替换修改前内容
检测：X标题下字数超过2000，且没有子标题，激活“标题内容拆分api”.

#03

··写作agent的效果··

这种架构带来的第一个好处就是“自由修改”。用户针对某个标题提出的评价和修改策略，会形成“XX标题评价”、“XX标题修改策略”的存储；新想到的素材输入后形成“XX标题素材”的存储；新的要求“XX标题要求”的存储。而这个架构本身就是以这些存储的状态为触发，激活执行最终改变存储的。所以这些外生的用户修改表述在转为存储后，系统会顺理成章进行消化，完成最终修改。

第二个好处是“复刻”——尊重作者的观点，作者的写作习惯。首先往知识记忆中导入作者的书著和文章，能在素材搜集环节发挥作用，改变标题下素材。XX标题要求除了作者临时填写外，还会由GPTapi生成，这个生成api在运作前会在策略记忆中搜索，从而生成的要求会符合作者的设定。此外按照“所有执行都可被策略”的原则，不仅仅要求生成api，评价生成api，素材生成api等都可以被策略，我们举一些可以被作者预定策略的例子：

介绍哺乳动物要介绍其繁殖模式（用在素材需求生成api中联想的策略）。Agent会在根据标题找到策略，根据策略寻找内容。
对文章布局的需求（比如单段不要太长，不要太短）用在评价生成api中联想的策略。
写作一般风格需求，用在“内容生成api中联想的策略”“修改api中联想的策略”。

#04

··相关GPTapi总结··

(1)素材需求生成api：

①背景提示：标题，整体要求，根据标题联想到的关注维度

②执行前搜集相关策略

③生成素材需求。

(2)内容生成api：

①背景提示：标题，整体要求；标题下素材

②执行前搜集相关策略

③需求提示：生成标题下提示

(3)评价生成api：

①背景提示：X标题已有内容，整体要求

②需求提示：生成评价

(4)修改策略生成api：

①背景提示：X标题已有内容，X标题评价，整体要求

②需求提示：生成修改策略

(5)内容修改api：

①背景提示：X标题已有内容，X标题修改策略，标题字数要求，整体要求

②需求提示：生成修改策略

(6)内容拆分api：

①背景提示：X标题已有内容，整体要求

②需求提示：拆分标题内容。按格式输出：标题下子标题，子标题下内容，标题下直接内容。

#05

··写作agent总结··

单体大模型试图一次性把素材要求纳入一个GPT执行中，然后让GPT生成搭建内容，也就是要搭建的大厦。这就导致大厦的规模有限，修改也不自由。我们把类似的写作的搭建类任务理解为“GPT扮演的角色在配合中对任务画布长期记忆一步步操作最终完成搭建大厦的过程。”这个理解是突破单体大模型在搭建类型任务中限制的关键。通过写作agent我们可以实现篇幅不受限，自由的修改，以及更加忠于作者的观点和写作风格。

▼

-END-