IT之家 2024年07月31日
OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式,可提供更自然实时对话
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI向部分ChatGPT Plus用户开放GPT-4o语音模式,今年秋季将逐步推广,该模式具有多种优势,此前曾推迟推出。

🌐OpenAI训练了跨文本、视觉和音频的端到端全新统一模型GPT-4o,所有输入和输出都由同一个神经网络处理,目前在探索其功能及局限性方面处于起步阶段。

⏳OpenAI原计划6月底邀请小部分ChatGPT Plus用户测试GPT-4o语音模式,但因需打磨模型、提高检测和拒绝某些内容的能力而推迟。

🎙GPT-4o语音模式可极大缩短延迟时间,实现近乎无缝对话,具有快速反应、声音堪比真人的特征,还能感知语音中的情感语调。

🚫OpenAI表示ChatGPT不能假冒他人声音,包括个人和公众人物的声音,并会阻止与预设声音不同的输出。

IT之家 7 月 31 日消息,当地时间 30 日,OpenAI 宣布即日起向部分 ChatGPT Plus 用户开放 GPT-4o 的语音模式(IT之家注:Alpha 版本),并将于今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。

今年 5 月,OpenAI 首席技术官米拉・穆拉蒂(Mira Murati)在演讲中提到:

在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理。

由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此我们在探索该模型的功能及其局限性方面仍处于起步阶段。

OpenAI 公司原计划今年 6 月底邀请一小部分 ChatGPT Plus 用户测试 GPT-4o 语音模式,但官方在 6 月宣布推迟,表示需要更多时间打磨该模型,提高该模型检测和拒绝某些内容的能力。

根据此前曝光的信息,GPT-3.5 模型的平均语音反馈延迟为 2.8 秒,而 GPT-4 模型的延迟为 5.4 秒,因此在语音交流方面不太优秀,而即将推出的 GPT-4o 可以极大地缩短延迟时间,近乎无缝对话

GPT-4o 语音模式具有快速反应声音堪比真人等特征,OpenAI 更称 GPT-4o 语音模式可以感知语音中的情感语调,包括悲伤、兴奋或歌唱。

OpenAI 发言人林赛・麦卡勒姆(Lindsay McCallum)表示:“ChatGPT 不能假冒他人的声音,包括个人和公众人物的声音,并且会阻止与预设声音不同的输出。”

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI GPT-4o 语音模式 情感语调 声音限制
相关文章