Cnbeta 03月21日 02:46
OpenAI 升级其转录和语音生成 AI 模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI为其API引入新的转录和语音生成AI模型,声称比以前版本有所改进,符合其‘代理’愿景。新模型在语音和文本方面都有提升,且部分模型不打算公开。

OpenAI推出新转录和语音生成AI模型,有所改进

新文本转语音模型gpt - 4o - mini - tts更细致、可控

新语音转文本模型取代Whisper,在某些方面改进

OpenAI不打算公开新的转录模型,因其规模较大

OpenAI 正在为其 API 引入新的转录和语音生成 AI 模型,该公司声称这些模型比以前的版本有所改进。对于 OpenAI 来说,这些模型符合其更广泛的“代理”愿景:构建能够代表用户独立完成任务的自动化系统。“代理”的定义可能存在争议,但 OpenAI 产品负责人 Olivier Godemont 描述了一种解释,即可以与企业客户交谈的聊天机器人。

OpenAI 声称,其新的文本转语音模型“gpt-4o-mini-tts”不仅可以提供更细致入微、听起来更逼真的语音,而且比上一代语音合成模型更“可控”。开发人员可以指导 gpt-4o-mini-tts 如何用自然语言说话——例如,“像疯狂的科学家一样说话”或“像正念老师一样用平静的声音说话”。

以下是“真实犯罪风格”的饱经风霜的声音:

以下是女性“专业”声音的样本:

OpenAI 产品人员杰夫·哈里斯 (Jeff Haris) 表示,他们的目标是让开发人员能够定制语音“体验”和“语境”。

“在不同的情况下,你不想要平淡、单调的声音,”哈里斯继续说道。“如果你在客户支持体验中,并且希望语音因为犯了一个错误而道歉,那么你实际上可以让语音带有这种情感……我们最大的信念是,开发人员和用户不仅希望真正控制所说的内容,还希望控制说话的方式。”

至于 OpenAI 的新语音转文本模型“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”,它们实际上取代了该公司久经考验的Whisper 转录模型。OpenAI 声称,新模型经过“多样化、高质量的音频数据集”训练,即使在混乱的环境中也能更好地捕捉带口音和变化的语音。

哈里斯补充说,他们也不太可能产生幻觉。众所周知,耳语者倾向于在谈话中捏造词语,甚至是整段话,从种族评论到想象中的医疗治疗,无所不包。

“这些模型在这方面比 Whisper 有了很大改进,”哈里斯说。“确保模型准确对于获得可靠的语音体验至关重要,准确(在这种情况下)意味着模型准确地听到了单词,并且不会填充它们没有听到的细节。”

根据 OpenAI 的内部基准测试,gpt-4o-transcribe 是两种转录模型中更准确的一种,对于泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语等印度语和德拉威语,其“单词错误率”接近 30%。这意味着该模型在这些语言中每 10 个单词中就会漏掉大约 3 个。

OpenAI 内部语音识别基准的结果。图片来源: OpenAI

与传统不同的是,OpenAI 并不打算公开其新的转录模型。该公司过去曾根据 MIT 许可发布过 Whisper 的新版本,供商业使用。

哈里斯表示,gpt-4o-transcribe 和 gpt-4o-mini-transcribe“比 Whisper 大得多”,因此不适合公开发布。

“它们不是那种可以在笔记本电脑上本地运行的模型,就像 Whisper 一样,”他继续说道。“我们希望确保,如果我们要以开源形式发布产品,我们会深思熟虑,并且我们有一个真正针对特定需求而精心打造的模型。我们认为,终端用户设备是开源模型最有趣的案例之一。”

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 转录模型 语音生成 AI发展
相关文章