返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

OpenAI发布全新语音模型API,语音识别和合成能力大升级!

[复制链接]
链载Ai 显示全部楼层 发表于 半小时前 |阅读模式 打印 上一主题 下一主题


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">OpenAI 今天又发布了一批新功能,这次是三个音频模型API,个人觉得挺实用。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">OpenAI新一代音频模型性能比较ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;margin: 0.1em auto 0.5em;border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 8px;" title="null"/>

新音频模型一览

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这次发布的API主要分为两类:

    ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;color: rgb(63, 63, 63);" class="list-paddingleft-1">
  1. ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">
    1.ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">语音识别模型(Speech-to-text):
    ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;color: rgb(63, 63, 63);" class="list-paddingleft-1">
  • ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">
    ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-feature-settings: normal;font-variation-settings: normal;font-size: 14.4px;text-align: left;line-height: 1.75;color: rgb(221, 17, 68);background: rgba(27, 31, 35, 0.05);padding: 3px 5px;border-radius: 4px;">gpt-4o-transcribe(精准版)
  • gpt-4o-mini-transcribe(轻量版)
  • 2.文字转语音模型(Text-to-speech):
    • gpt-4o-mini-tts(支持自定义声音风格)

    这些新模型相较之前的Whisper模型,准确率有明显提升,尤其是在有噪音、口音明显或语速变化快的环境下。

    下面这张图清晰地展示了最新语音识别模型与过去Whisper模型之间的对比:


从图中可以看到,新的gpt-4o-transcribe模型在多个语言的词错率(WER)方面表现都更加优秀(词错率越低越好)。

价格一览(每百万tokens)

官方也给出了新模型的定价明细,具体如下:

模型名称
文本输入价格
文本输出价格
音频输入价格
音频输出价格
gpt-4o-mini-tts
$0.60
-
-
$12.00
gpt-4o-transcribe
$2.50
$10.00
$6.00
-
gpt-4o-mini-transcribe
$1.25
$5.00
$3.00
-

从定价来看,mini版本明显更便宜,更适合日常小规模使用,而gpt-4o-transcribe则适合需要更高精准度的专业场景,比如客服中心、会议记录等。

有哪些新亮点?

1. 语音转文字更精准

新版gpt-4o-transcribe针对之前Whisper模型存在的“听错”、“漏听”等问题进行了优化,尤其擅长处理:

  • • 带口音的英语或其他语言
  • • 背景噪音较大的场景(如咖啡厅、户外)
  • • 讲话速度较快的内容

对那些日常使用语音识别经常感到“痛苦”的朋友来说,这个更新意义巨大,毕竟识别准确度直接影响使用体验。

2. TTS模型支持“声音风格指令”

传统的TTS(文字转语音)模型虽然可以合成自然的声音,但往往声音风格比较固定。而gpt-4o-mini-tts首次支持用户通过简单的指令来控制声音表现,比如:

  • • “像一个有同理心的客服人员说话”
  • • “用兴奋的语气讲述故事”
  • • “模仿播音员的语调朗读新闻”

这对开发创意内容、音频书籍、游戏配音,甚至是客户服务机器人,都是极大的提升。

3. 开发者的福音:Agents SDK支持音频

OpenAI还特意提到了,现在他们的Agents SDK已经可以直接支持音频了,也就是说,以后开发者可以更轻松地搭建一个能“听”和“说”的智能语音助手。

比如,你只需要简单调用API,就能实现智能客服、智能导游、甚至能聊天的虚拟伙伴。

亲测体验(附官方在线Demo)

如果你感兴趣,OpenAI专门做了一个小网站,可以直接在线体验TTS效果(无需写代码):

OpenAI.fm

我自己简单试了一下,声音的表现力和自然程度确实有明显提升,非常值得一试。

另外官方还举办了一个创意音频分享比赛,获奖者还能拿到一个Teenage Engineering OB-4收音机,有兴趣的朋友不妨试试看~

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ