|
Google: 2025年是AI Agents元年; Sam Altman: 2025年我们能构建出达到AGI L3的Agent。 Google trends 关于Ai Agents搜索词汇过去5年的趋势如下,最近几个月突然加速: 最新Google发布了一份关于Agents的白皮书,写的特别精彩,50多页的pdf。 Agent:AI 的新边界,从模型到智能体 现在,我们正在进入一个全新的时代,在这个时代,AI 不仅仅是模型,而是拥有自主思考和行动能力的agent。它不仅能理解你的指令,还能像人类一样规划、推理、并利用外部工具来完成任务,那将带来怎样的变革?这正是 AI agent 的核心理念。它们超越了传统模型的局限,将 AI 的应用推向了新的高度。  Agent 的核心:不止是模型 那么,到底什么是 agent 呢?简单来说,agent 是一个能够观察世界、思考决策并采取行动的程序。它不是一个被动执行指令的工具,而是一个主动解决问题的智能体。我们可以将其拆解为以下三个核心组件:  - 模型 (Model):这是 agent 的“大脑”,可以是任何 LLM,比如 Gemini。模型负责理解语言、进行推理和规划。你可以根据需要选择不同大小、不同功能的模型。
- 工具 (Tools):模型再强大,也无法访问真实世界。工具就像 agent 的“双手”,让它可以与外部世界互动。比如,使用 API 查询天气,或在数据库中查找信息。
- 编排层 (Orchestration Layer):如果说模型是 agent 的大脑,那么编排层就是它的执行机制。它负责协调模型的思考和工具的使用,让 agent 按部就班地完成任务。编排层中,我们可以使用诸如ReAct、Chain-of-Thought (CoT) 或 Tree-of-Thoughts (ToT) 等推理框架来引导 agent 进行思考。
Agent 与模型:关键区别 现在,你可能会问:“agent 和模型到底有什么区别?”这里有一个简单的对比:  下图是一个在编排层使用 ReAct 推理构建的Agent示例。它基本上通过 1-n 次思考、动作(带有输入)和观察的迭代,以及访问关键工具来尝试解决问题。  工具:连接世界的钥匙 工具是 agent 的核心能力。它们赋予了 agent 与外部系统交互的能力,包括: 扩展 (Extensions):标准化连接 API 的方式,让 agent 无需关心底层实现细节,可以轻松调用外部服务。 函数 (Functions):在客户端执行的自定义代码,可实现更精细的数据处理和系统控制。 数据存储 (Data Stores):让 agent 可以访问外部数据源,如网站、文档、数据库等,以扩展知识面。
数据存储通常实现为向量数据库。也可以为Agent提供各种格式的数据。
 增强 agent 的学习能力 除了强大的工具,我们还可以使用以下方法来增强 agent 的学习能力:  - 上下文学习 (In-context learning):在运行时提供示例,让 agent "即时"学习如何使用工具。
- 检索式上下文学习 (Retrieval-based in-context learning):动态检索最相关的知识和例子,来优化 agent 的决策。
- 微调 (Fine-tuning):使用特定数据集微调模型,让 agent 在特定领域表现更出色。
Agent 的实际应用:无限可能 有了这些强大的组件和技巧,我们可以构建出各种各样的 agent。例如: - 旅行规划助手: 根据用户的需求,查询航班、酒店,并生成行程安排。
- 代码生成器: 根据用户的描述,自动编写代码,甚至可以运行并测试。
- 智能客服: 理解用户的问题,并使用知识库和工具来提供解答。
Agent 的未来:一个新时代的开端 Agent 的发展潜力是巨大的,它不仅仅是技术的进步,更是一场思维方式的变革。随着工具的日益完善和推理能力的不断提升,agent 将逐渐成为我们工作和生活中不可或缺的一部分。 最后,别忘了: - 构建 agent 是一个迭代过程,需要不断尝试和改进。
- 没有两个完全相同的 agent,因为它们都基于 LLM 的生成能力。
- 通过巧妙地运用工具和推理框架,我们可以打造出无限可能。
白皮书地址:https://www.kaggle.com/whitepaper-agents |