富途牛牛头条 03月21日
OpenAI推出語音模型全家桶:AI將說得更動情、聽寫更準確…
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布了三款全新的语音模型,包括文本转语音模型GPT-4o MiniTTS和两款语音转文本模型。GPT-4o MiniTTS能够生成更逼真的语音,开发者可以自定义语音的语调和情感。新的语音转文本模型在多种语言中都展现出更高的准确性,尤其是在英语、西班牙语和普通话中,单词错误率显著降低。OpenAI强调这些模型是其“AI智能体”愿景的重要一步,旨在构建能够独立完成任务的自动化系统。尽管新模型不会开源,但OpenAI计划帮助开发者构建更智能、更准确的AI助手。

🗣️GPT-4o MiniTTS:该模型在语音生成方面取得了显著进展,能够提供更逼真、更可控的语音。开发者可以使用自然语言指令来定制语音的语调和情感,例如“像一个疯狂的科学家一样说话”等。

📝新语音转文本模型:与之前的Whisper模型相比,新的语音转文本模型GPT-4o Transcribe和GPT-4o MiniTranscribe在多种语言中都展现出更高的准确性。在英语、西班牙语和普通话中,单词错误率分别为2%、2%和7%左右,明显低于之前的模型。OpenAI声称,新模型经过多样化、高质量音频数据集的训练,可以更好地捕捉口音和不同的语音,即使在混乱的环境中也是如此。

🤖AI智能体愿景:OpenAI将这些新模型视为其“AI智能体”愿景的重要组成部分,旨在构建能够代表用户独立完成任务的自动化系统。OpenAI的产品主管表示,未来几个月将会有越来越多的AI智能体出现,帮助客户和开发者利用有用、可用和准确的智能体。这些模型将帮助开发者构建更智能的AI助手。

🔒模型发布策略:与之前的Whisper模型不同,OpenAI不打算公开其新的转录模型。由于GPT-4o-transcribe和GPT-4o-mini-transcribe“比Whisper大得多”,不适合公开发布。OpenAI希望确保,如果以开源方式发布东西,是经过深思熟虑的,有一个真正针对特定需求的模型。

①OpenAI发布三款全新语音模型,其中,文本转语音模型GPT-4o MiniTTS能提供更逼真的语音,开发人员可指导其用自然语言说话;③新语音转文本模型准确率大幅提升,在英语、西班牙语中的单词错误率仅有2%左右,在普通话中的错误率为7%左右。

美东时间周四,OpenAI举行了一场重磅的技术直播,发布了三款全新语音模型:语音转文本模型GPT-4o Transcribe和GPT-4o MiniTranscribe,以及文本转语音模型GPT-4o MiniTTS。

OpenAI声称,这些模型在之前版本的基础上取得了明显的进步,也标志着OpenAI距离其“AI智能体(AI AGENT)”的愿景更进一步。

更逼真的语音生成模型

OpenAI声称,其新的文本到语音模型GPT-4o MiniTTS不仅能提供更细致入微、听起来更逼真的语音,而且比前一代语音合成模型更“可操控”。

开发人员可以指导该模型如何用自然语言说话——例如,“像一个疯狂的科学家一样说话”、“像一个富有同理心的客服一样说话”或“像一个正念老师一样使用平静的声音”。

OpenAI在其官网给出了六种不同的语气示例

OpenAI产品人员杰夫哈里斯 (Jeff Harris) 表示,他们的目标是让开发者能够定制语音“体验”和“环境”。

哈里斯表示:“在不同的情况下,你想要的不会仅仅是一个平淡、单调的声音…如果你在客户支持体验中,你希望这个声音表达出犯错后的歉意,你可以让声音表达出那种情感……我们的信念是,开发者和用户不仅想要真正控制说什么,还想要控制怎么说。”

语音转文字模型准确率大幅提升

至于OpenAI的新语音转文本模型“GPT-4o-transcript”和“GPT-4o-mini- transcript”,它们的准确度明显高于 OpenAI之前发布的语音转文本模型Whisper,并在多种语言中实现更低的词错误率 (WER)。

新模型在多种语言中的错误率都明显更低

OpenAI声称,经过“多样化、高质量音频数据集”的训练,新模型可以更好地捕捉口音和不同的语音,即使在混乱的环境中也是如此。

OpenAI还表示,新模型在工作中产生幻觉的概率也降低了。哈里斯补充道。众所周知,Whisper喜欢在谈话中编造词汇,甚至整段文字,而“新模型在这方面比Whisper有了很大的改进。”

哈里斯表示:“确保模型的准确性对于获得可靠的语音体验至关重要,(在这种情况下)准确性意味着模型准确地听到了单词,(并且)没有填写他们没有听到的细节。”

当然,模型的准确率和其被转录的语言有较大关系。

根据OpenAI的内部基准测试,GPT-4o-transcribe是两种新转录模型中更准确的一种,其在英语、西班牙语中的单词错误率仅有2%左右,在普通话中的错误率为7%左右,而在印度语和达罗毗荼语系(如泰米尔语、泰卢固语等)中,其“单词错误率”仍接近30%,这意味着模型中每10个单词中就有3个与这些语言的人类转录不同。

距离AI智能体更进一步

OpenAI声称,这些模型符合其更广泛的“AI智能体(AI AGENT)”的愿景:构建能够代表用户独立完成任务的自动化系统。

尽管“智能体(Agent)”的定义可能存在争议,但OpenAI的产品主管奥利维尔·戈德曼(Olivier Godement)将一种解释描述为可以与企业客户交谈的聊天机器人。

“在接下来的几个月里,我们会看到越来越多的AI智能体出现,”戈德蒙德表示,“因此,总的主题是帮助客户和开发者利用有用、可用和准确的智能体。”

与传统不同的是,OpenAI并不打算公开其新的转录模型。该公司此前在麻省理工学院的许可下发布了用于商业用途的新版Whisper。

哈里斯表示,GPT- 4o -transcribe和GPT- 4o -mini-transcribe“比Whisper大得多”,因此不适合公开发布。

“它们不是那种能在笔记本电脑上本地运行的模式,比如Whisper那种,”他继续说道,“我们想确保,如果我们以开源方式发布东西,我们是经过深思熟虑的,我们有一个真正针对特定需求的模型。”

编辑/lambor

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 语音模型 GPT-4o AI智能体 语音转文本
相关文章