返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

OpenAI gpt-realtime 与 Realtime API 重磅升级,语音智能体迎来生产级时代

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题

这次Realtime APIg和gpt-realtime 模型发布,可以理解为 OpenAI 在语音交互上的一次大升级。

  • Realtime API 能力更新


    • 图像输入:支持在对话里直接用图像。
    • 远程 MCP server 支持:让工具调用更灵活,可以接驳外部 MCP 工具。
    • SIP/PBX 支持:能和电话系统集成,适合语音客服场景。
    • Prompt caching:提示缓存,降低重复调用成本(价格低至 $0.40/百万 tokens)。
    • 更好的函数调用:instruction following 和 tool calling 的可靠性增强。
    • WebRTC API 扩展:包括 server websocket 控制和视频支持。
    • 价格下调约 20%:输入约 $32/百万音频 tokens,输出约 $64/百万音频 tokens。

      gpt-realtime 模型升级点


    • 强调语音到语音(speech-to-speech),低延迟,适合实时对话。
    • BigBench、ComplexFuncBench等基准上较 GPT-4o-realtime 有显著提升。
    • 语音层面改进:韵律(prosody)、非语言特征(咳嗽、笑声)、多语言切换
    • 新增两种声音:CedarMarin
  • 社区反响

    • 工程师们认为这是 OpenAI 把 “实时语音” 当作一等公民接口来推动。

    • 关注点在于:

      • voice-native agents(以语音为核心的智能体)。
      • MCP over voice(语音直接驱动代码/工具调用)。
      • streaming hooks & session control(实时流式钩子和会话管理)。
    • 应用前景

      • 可以催生语音优先的编程助理AI 电话助理多模态实时交互产品
      • 定位在“让随时对话的语音接口真正可用”。

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
    • 官方手机版

    • 微信公众号

    • 商务合作

    • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
    • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ