前言2025年3月12日,OpenAI发布了专为开发AI智能体(Agent)设计的 Responses API与开源框架 Agents SDK,标志着 Open AI 从“对话生成”向“任务执行”的全面升级。 不论OpenAI是否承认,我感觉这明显是对 Manus 近期爆火的一种回应,也从侧面说明了 Manus 智能体路线的正确。 发布内容首先,介绍下这次发布的内容。 Responses APIResponses API 是一套开发接口,是 Chat Completions API 的升级版本,它结合了 Chat Completions API 的易用性和 Assistants API 的工具调用能力,支持开发者通过单次API请求完成复杂任务链。  其核心工具包括: - 网页搜索工具:基于微调的GPT-4o或GPT-4o-mini模型,支持实时检索互联网信息并自动生成引用来源。该工具在SimpleQA基准测试中准确率高达90%,可与其他工具协同调用,例如结合文件搜索生成综合报告。
- 文件搜索工具:支持PDF、Markdown等多种文件格式,新增元数据过滤和自定义排序功能,适用于检索增强生成(RAG)场景。开发者可通过向量数据库快速定位文档内容,集成仅需几行代码。
- 计算机操作工具(CUA):基于Operator模型的计算机操作代理(CUA),可模拟鼠标点击、键盘输入等操作,自动化执行浏览器或传统软件任务。该工具在OSWorld、WebArena等测试中成功率最高达87%,提供环境隔离和敏感操作确认机制保障安全。
Agents SDK发布会上同时开源了 Agents SDK,旨在简化AI智能体的开发、协调与优化流程。 主要包括以下核心功能: - 多Agent协同:基于Swarm框架升级,支持编排多智能体工作流。
- 跨模型兼容性:开源设计,允许集成第三方模型(如Anthropic、Llama等),开发者可自由选择底层LLM。
- 少量代码开发:提供预配置模板与SDK助手,仅需数行代码即可启动复杂任务(如文件搜索+网络搜索联动)。
- 企业级扩展:支持对接传统系统(如无API的遗留软件),通过计算机操作工具实现自动化控制
演示案例发布会上进行了一个 Agent 案例的展示,效果看起来还是很不错的。 测试模拟的用户名字是 Kevin,居住在东京。 - 先用“文件搜索工具” 了解 Kevin的服装偏好数据,生成穿衣风格。
- 通过调用“网页搜索工具”获取东京附近的店铺数据,并推荐 Patagonia 店铺。
- 使用“计算机操作工具”自动操作网页进行下单,包括点击、填写表单等。
- 最后,还展示了当前 Agent 将退货请求推送到另一个客服 Agent,让其帮助用户完成退货。
野心这次 OpenAI 的发布更多是在技术层面上的应用,看起来可能没有Manus那么炫酷,但我觉得这背后并不简单。 比如上文提到的 Chat Completion API,可能非技术背景的朋友不太了解它,但它实际上已经成了大模型 API 里的标配。几乎所有主流的大模型API都得兼容这个规范,不然用起来就很麻烦。 此次推出的 Responses API 是在 Chat Completion API 的基础上进行升级而来的。它预示着 OpenAI 的野心——或许我们以后开发的所有智能体 Agent 都需要遵循这一套接口标准? 概念区分本次发布的内容可能会与以前的几个概念混淆,特此对比,方便大家理解。 Responses API 与 Agents SDK- Responses API:接口层,提供工具调用与任务编排能力,如网页搜索、文件检索;
- Agents SDK:框架层,开源Python/Node.js库,支持多智能体协作与流程可视化监控。
两者关系类似“乐高零件”与“拼装说明书”,前者提供功能原子,后者定义协作规则。 Responses API 与 Operators 的区别- Operators:一个基于CUA模型的具体智能体(如浏览器插件),聚焦终端用户任务执行;
- Responses API:底层支持层,为Operators等智能体提供工具调用与模型调度能力
GPTs 与 Assistants API- GPTs:通过零代码方式迅速部署场景化AI服务,类似国内的扣子等。
- Assistants API:通过标准接口提供企业级对话管理、多角色协作和工具调用能力。
总结与Manus侧重于快速应用落地和用户体验优化相比,OpenAI的这次发布展示了其对未来AI发展的深刻理解和预先规划。 这提醒着我们,在追求应用创新的同时,是否也应该提升核心技术和规范标准的积累与布局。 毕竟,DeepSeek已经开了个好头,不是吗?
|