就在几个小时前,OpenAI 发布了全新的 GPT Realtime 大模型。这是一个 Speech-to-Speech(S2S)模型,能通过单个模型与 API完成从音频输入到音频输出的全流程,显著降低交互延迟并充分保留语音细节。GPT Realtime 以“端到端语音理解—推理—合成”为核心路径,解决了传统“识别—推理—合成”多阶段带来的延迟与风格割裂问题。
OpenAI 早在 2024 年 10 月就推出过首个 S2S 模型(gpt-4o-realtime-preview-2024-10-01),随后在 2024-12-17 与 2025-06-03 又有两次预览迭代,但它们均基于 GPT-4o 架构、且仍处于 preview 阶段,反馈包括指令遵从不稳、**跨语种回复混乱(如德语回答英文问题)**等。
本次发布的GPT Realtime去除了 “4o” 与 “preview” 标签,更像是重新设计与训练的生产级语音模型。
OpenAI 表示该模型在真实业务场景(客服、个人语音助手、教育等)中与合作伙伴共同对齐后训练,在语音质量、智能水平、指令遵从与函数调用方面有明确提升。
在语音生成上,GPT Realtime 能根据指令调整语速、节奏与风格,支持对话中无缝切换语言,并持续保持人设一致性。除文字内容外,它还能识别笑声、停顿等非语言线索并纳入上下文理解。
在官方演示中,模型能合成富含情绪的语音(如丢失物品的焦虑、找回后的喜悦),听感自然,接近真人情绪表达。
OpenAI 公布了多项评测结果,相比旧版gpt-4o-realtime-preview有不同幅度的提升。
如果说过去的语音模型只是“能听会说”,那么全新的 GPT Realtime 正在向“会思考、懂人心”靠近——当它捕捉到电话里的一声轻笑,便能把语气从“干练商务”切换到“温柔共情”;当一句话里突然混入中文或西语,它也能顺畅跟上。
在Big Bench Audio推理基准上,GPT Realtime 取得82.8%:较 2024-12-17 的65.6%提高17.2 个百分点;对比 2025-06-03 的81.5%也有小幅上升。在内部测试中,即便是夹杂口音的电话号码或 VIN 码,也比去年的 12 月版本多识别近两成字符。
在多轮对话的指令遵从测试MultiChallenge(Audio)上,GPT Realtime 相比 2025-06-03 版本提升近20%。例如当开发者要求“听到用户说‘订机票’时先确认预算,再调用search_flights”,新模型更少出现跳步或漏步。
在函数调用方面,ComplexFuncBench(Audio)得分66.5%,较上个版本提升12%。如“连续查询天气后再根据结果调用日历 API”的链式指令,新版本更少出现函数选错或参数格式错误。
这次最具“地基工程”意义的变化,是GPT Realtime 正式支持 SIP(会话发起协议)电话接入。这意味着用户不仅能在 App 或网页中与 AI 交互,还能像打普通电话那样,直接拨号接入 AI 服务。支持 SIP 使模型能“跨越网络鸿沟”:功能机、座机在无数据网络环境下也能使用 AI,既扩大覆盖范围,也让企业能把现有热线、PBX 与 AI 无缝对接。
SIP 是什么?
SIP(Session Initiation Protocol)是一种用于建立和管理语音通话的协议,是传统电话网络与互联网之间的“桥梁”。
与互联网式接入的差别
价值与影响
除了 SIP,OpenAI 也把 Realtime API 的工程能力进一步补齐,让 S2S 模型的潜力真正落地:
与预览版相比,Realtime API 定价下调 20%:语音输入价格由40美元每百万tokens降至32美元,输出价格从80美元降到64美元。价格下调 + 工程能力完善,意味着 GPT Realtime 的接入门槛显著降低,企业与开发者可以更快把“语音原生”的 AI 体验带到真实业务。
目前 GPT Realtime 接口已开放;官方尚未明确 ChatGPT 网页版是否已切换至该接口。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |