IT之家 03月21日
OpenAI 发布新一代语音模型,让智能体语音表达更自然
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布博文,推出语音转文本和文本转语音模型,提升语音处理能力,推动AI语音技术商业化应用。介绍了相关模型的优势、应用场景及费用。

OpenAI推出gpt-4o-transcribe和gpt-4o-mini-transcribe语音转文本模型,在多方面超越Whisper系列,支持超100种语言。

推出gpt-4o-mini-tts文本转语音模型,开发者可控制语音风格,应用于客服和创意内容方面。

附上三款模型的费用明细,包括音频输入、文本输入及输出的费用和每分钟成本。

IT之家 3 月 21 日消息,OpenAI 昨日(3 月 20 日)发布博文,宣布推出语音转文本(speech-to-text)和文本转语音(text-to-speech)模型,提升语音处理能力,支持开发者构建更精准、可定制的语音交互系统,进一步推动人工智能语音技术的商业化应用。

在语音转文本模型上,OpenAI 主要推出了 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 两个模型,官方表示在单词错误率(WER)、语言识别和准确性上超越现有 Whisper 系列。

这两个模型支持超 100 种语言,主要通过强化学习和多样化高质量音频数据集训练,能捕捉细微语音特征,减少误识别,尤其在嘈杂环境、口音及不同语速下表现更稳定。

在文本转语音上,OpenAI 最新推出了 gpt-4o-mini-tts 模型,开发者通过“模拟耐心客服”或“生动故事叙述”等指令,控制语音风格,可以应用于客服(合成更具同理心的语音,提升用户体验)和创意内容(为有声书或游戏角色设计个性化声音)方面。

IT之家援引博文介绍,附上三款模型费用如下:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 语音转文本 文本转语音 模型费用
相关文章