链载Ai
标题: OpenAI gpt-realtime 与 Realtime API 重磅升级,语音智能体迎来生产级时代 [打印本页]
作者: 链载Ai 时间: 2 小时前
标题: OpenAI gpt-realtime 与 Realtime API 重磅升级,语音智能体迎来生产级时代
这次Realtime APIg和gpt-realtime 模型发布,可以理解为 OpenAI 在语音交互上的一次大升级。
- 远程 MCP server 支持:让工具调用更灵活,可以接驳外部 MCP 工具。
- SIP/PBX 支持:能和电话系统集成,适合语音客服场景。
- Prompt caching:提示缓存,降低重复调用成本(价格低至 $0.40/百万 tokens)。
- 更好的函数调用:instruction following 和 tool calling 的可靠性增强。
- WebRTC API 扩展:包括 server websocket 控制和视频支持。
- 价格下调约 20%:输入约 $32/百万音频 tokens,输出约 $64/百万音频 tokens。
- 强调语音到语音(speech-to-speech),低延迟,适合实时对话。
- 在BigBench、ComplexFuncBench等基准上较 GPT-4o-realtime 有显著提升。
- 语音层面改进:韵律(prosody)、非语言特征(咳嗽、笑声)、多语言切换。
工程师们认为这是 OpenAI 把 “实时语音” 当作一等公民接口来推动。
- voice-native agents(以语音为核心的智能体)。
- MCP over voice(语音直接驱动代码/工具调用)。
- streaming hooks & session control(实时流式钩子和会话管理)。
- 可以催生语音优先的编程助理、AI 电话助理、多模态实时交互产品。
| 欢迎光临 链载Ai (https://www.lianzai.com/) |
Powered by Discuz! X3.5 |