返回上一页  首页 | cnbeta报时: 16:56:13
OpenAI 推出其最先进、最经济的语音转语音模型 GPT-realtime
发布日期:2025-08-29 07:28:11  稿源:Win10s.COM

早在 2024 年 10 月,OpenAI就发布了Realtime API,使开发者能够在其应用中构建低延迟、多模式的体验。自那时起,成千上万的开发者已经使用 Realtime API 在其应用和服务中构建了自然的语音转语音体验。今天,OpenAI 发布了其最先进的语音转语音模型 GPT-realtime,该模型能够更好地遵循复杂指令,以更低的错误率调用工具,并生成更自然、更具表现力的语音。

OpenAI 声称,这款新模型能够更好地解读系统消息和开发者提示。Realtime API 去年发布时,自带 6 种不同的声音,后来又添加了两种。今天,OpenAI 宣布推出两种新声音:Marin 和 Cedar。除了新增声音外,现有的 6 种声音也进行了更新,使其听起来更加自然。

OpenAI 提到,这个新的 GPT-realtime 模型可以更好地理解音频,并且准确率更高,在基准测试中的表现也更好:

  • Big Bench Audio:gpt-realtime 的准确率达到了 82.8%,超过了 2024 年 12 月推出的上一代实时模型(准确率 65.6%)。

  • MultiChallenge 音频基准测试:gpt-realtime 得分为 30.5%,与 2024 年 12 月的上一代型号(得分为 20.6%)相比有显著提升。

  • ComplexFuncBench 音频评估:gpt-realtime 得分为 66.5%,而 2024 年 12 月的上一代型号得分为 49.7%。

除了新模型和语音之外,OpenAI 还宣布了 API 的多项更新。实时 API 现在支持远程 MCP 服务器、图像输入以及通过会话发起协议 (SIP) 进行电话呼叫。最后,开发人员现在可以保存和重复使用提示。

尽管进行了这些改进,OpenAI 还是降低了 Realtime API 的价格。与 GPT-4o-realtime-preview 相比,新的 GPT-realtime API 便宜了 20%,每 100 万个音频输入词元 32 美元(缓存输入词元 0.40 美元),每 100 万个音频输出词元 64 美元。

凭借这些有意义的性能改进和令人惊讶的价格下降,OpenAI 将 gpt-realtime 定位为构建下一代语音优先体验的开发人员的有力选择。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 16:56:13

文字版  标准版  电脑端

© 2003-2025