OpenAI ResponsesAPI：Manus的跟随者 or 标准的制定者？

显示全部楼层

前言

2025年3月12日，OpenAI发布了专为开发AI智能体（Agent）设计的 Responses API与开源框架 Agents SDK，标志着 Open AI 从“对话生成”向“任务执行”的全面升级。

不论OpenAI是否承认，我感觉这明显是对 Manus 近期爆火的一种回应，也从侧面说明了 Manus 智能体路线的正确。

首先，介绍下这次发布的内容。

Responses API 是一套开发接口，是 Chat Completions API 的升级版本，它结合了 Chat Completions API 的易用性和 Assistants API 的工具调用能力，支持开发者通过单次API请求完成复杂任务链。

其核心工具包括：

网页搜索工具：基于微调的GPT-4o或GPT-4o-mini模型，支持实时检索互联网信息并自动生成引用来源。该工具在SimpleQA基准测试中准确率高达90%，可与其他工具协同调用，例如结合文件搜索生成综合报告。
文件搜索工具：支持PDF、Markdown等多种文件格式，新增元数据过滤和自定义排序功能，适用于检索增强生成（RAG）场景。开发者可通过向量数据库快速定位文档内容，集成仅需几行代码。
计算机操作工具（CUA）：基于Operator模型的计算机操作代理（CUA），可模拟鼠标点击、键盘输入等操作，自动化执行浏览器或传统软件任务。该工具在OSWorld、WebArena等测试中成功率最高达87%，提供环境隔离和敏感操作确认机制保障安全。

发布会上同时开源了 Agents SDK，旨在简化AI智能体的开发、协调与优化流程。

主要包括以下核心功能：

发布会上进行了一个 Agent 案例的展示，效果看起来还是很不错的。

测试模拟的用户名字是 Kevin，居住在东京。

这次 OpenAI 的发布更多是在技术层面上的应用，看起来可能没有Manus那么炫酷，但我觉得这背后并不简单。

比如上文提到的 Chat Completion API，可能非技术背景的朋友不太了解它，但它实际上已经成了大模型 API 里的标配。几乎所有主流的大模型API都得兼容这个规范，不然用起来就很麻烦。

此次推出的 Responses API 是在 Chat Completion API 的基础上进行升级而来的。它预示着 OpenAI 的野心——或许我们以后开发的所有智能体 Agent 都需要遵循这一套接口标准？

本次发布的内容可能会与以前的几个概念混淆，特此对比，方便大家理解。

两者关系类似“乐高零件”与“拼装说明书”，前者提供功能原子，后者定义协作规则。

与Manus侧重于快速应用落地和用户体验优化相比，OpenAI的这次发布展示了其对未来AI发展的深刻理解和预先规划。

这提醒着我们，在追求应用创新的同时，是否也应该提升核心技术和规范标准的积累与布局。

毕竟，DeepSeek已经开了个好头，不是吗？