ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;">?²·ℙarad?g?智能平方范式研究:书写解构智能,范式提升认知
AI agents 是由大型语言模型(LLM)驱动的行动体,但 LLM 的核心能力在于生成 token,类似于一个“语言的缸中之脑”——它不具备外部感知或与真实世界直接交互的能力,也没有内生的意志或自发的动机。因此,在当前技术阶段,AI agents 的行动动机仍然依赖于人类通过指令、提示(prompt)或任务定义来提供。
为了让 LLM 能够完成具体任务,我们需要为其构建一个“脚手架agent framework”,集成工具使用(tool use)、记忆(memory)等功能,以提供运行环境和外部支持。
Workflow 和 API 编排 是两种常见的脚手架实现方式,用于将 LLM 的文本输出转化为可执行的行动。两者的主要区别在于设计灵活性:
• Workflow:通常采用预定义的、确定性的步骤序列,适用于固定的、流程化的任务。
• API 编排:支持更动态的工具调用,适合需要灵活决策和适应的复杂场景。
LLM 的“智能”(即其 token 生成能力)在这些系统中至关重要,它通过生成文本指令来指导行动。然而,行动动机的完整性和执行效果更多取决于人类设定的任务目标以及脚手架的设计,而非 LLM 自身是否能独立“理解”或“描述”动机。
未来,AI agents 的功能需要逐步内化,以减少对外部脚手架的依赖,从而提升效率和一致性。通过强化学习(RL)等技术,LLM 可以逐步在 token 生成过程中自然融入工具调用或记忆请求,使其行为更接近自主行动。例如:
• ReACT:通过提示(prompt)引导 LLM 在思考和行动之间切换,灵活且易于实现,适合快速部署。
• ReTool 和 ReSearch:通过 RL 将工具使用和搜索策略内化为模型的生成模式,显著提升特定任务的性能。
当前阶段,脚手架仍是不可或缺的,它不仅为 LLM 提供运行环境,还负责解析和执行 LLM 的输出,并将外部反馈整合回系统。未来,随着 RL 和模型微调(fine-tuning)技术的进步,部分脚手架功能有望内化到 LLM 中,但实现完全自主的 AI agents 仍需更多技术突破。脚手架的核心作用在于弥补 LLM 的局限,确保其输出在复杂任务中得以有效执行,以及OpenAI强调的安全护栏作用。