|
这次Realtime APIg和gpt-realtime 模型发布,可以理解为 OpenAI 在语音交互上的一次大升级。 - 远程 MCP server 支持:让工具调用更灵活,可以接驳外部 MCP 工具。
- SIP/PBX 支持:能和电话系统集成,适合语音客服场景。
- Prompt caching:提示缓存,降低重复调用成本(价格低至 $0.40/百万 tokens)。
- 更好的函数调用:instruction following 和 tool calling 的可靠性增强。
- WebRTC API 扩展:包括 server websocket 控制和视频支持。
- 价格下调约 20%:输入约 $32/百万音频 tokens,输出约 $64/百万音频 tokens。
- 强调语音到语音(speech-to-speech),低延迟,适合实时对话。
- 在BigBench、ComplexFuncBench等基准上较 GPT-4o-realtime 有显著提升。
- 语音层面改进:韵律(prosody)、非语言特征(咳嗽、笑声)、多语言切换。
工程师们认为这是 OpenAI 把 “实时语音” 当作一等公民接口来推动。
- voice-native agents(以语音为核心的智能体)。
- MCP over voice(语音直接驱动代码/工具调用)。
- streaming hooks & session control(实时流式钩子和会话管理)。
- 可以催生语音优先的编程助理、AI 电话助理、多模态实时交互产品。
|