热搜: 活动交友 discuz

扫码关注官方微信

扫码下载APP

返回顶部

链载Ai › 核心板块 › 前沿技术 › OpenAI gpt-realtime 与 Realtime API 重磅升级，语音智 ...

链载Ai 关注Ta

发帖数20493
粉丝0

此人很懒，什么也没有留下

阅读作者更多精彩帖子

热门问答更多热门问答

技术文章更多技术文章

OpenAI gpt-realtime 与 Realtime API 重磅升级，语音智能体迎来生产级时代

[复制链接]

链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式

上一主题

下一主题

这次Realtime APIg和gpt-realtime 模型发布，可以理解为 OpenAI 在语音交互上的一次大升级。

Realtime API 能力更新

图像输入：支持在对话里直接用图像。
远程 MCP server 支持：让工具调用更灵活，可以接驳外部 MCP 工具。
SIP/PBX 支持：能和电话系统集成，适合语音客服场景。
Prompt caching：提示缓存，降低重复调用成本（价格低至 $0.40/百万 tokens）。
更好的函数调用：instruction following 和 tool calling 的可靠性增强。
WebRTC API 扩展：包括 server websocket 控制和视频支持。
价格下调约 20%：输入约 $32/百万音频 tokens，输出约 $64/百万音频 tokens。
gpt-realtime 模型升级点
强调语音到语音（speech-to-speech），低延迟，适合实时对话。
在BigBench、ComplexFuncBench等基准上较 GPT-4o-realtime 有显著提升。
语音层面改进：韵律（prosody）、非语言特征（咳嗽、笑声）、多语言切换。
新增两种声音：Cedar和Marin。

社区反响

工程师们认为这是 OpenAI 把 “实时语音” 当作一等公民接口来推动。
关注点在于：

voice-native agents（以语音为核心的智能体）。

MCP over voice（语音直接驱动代码/工具调用）。

streaming hooks & session control（实时流式钩子和会话管理）。

应用前景

可以催生语音优先的编程助理、AI 电话助理、多模态实时交互产品。
定位在“让随时对话的语音接口真正可用”。

回复

使用道具举报

发布主题

返回列表

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程，Suno AI音乐生成指南，以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整，手把手助您从入门到精通。

官方手机版
微信公众号
商务合作

Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司||