AI & Big Data 03月21日
OpenAI推出新語音模型,增強語音辨識準確度與語氣控制能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI宣布推出新一代语音转文字与文字转语音模型,在多方面有所提升,扩展了API功能,强化多语言语音代理开发能力,目前已全面开放相关功能并与Agents SDK整合。

OpenAI推出新语音转文字模型,强化多语言语音辨识,在部分语言表现优,部分仍有进步空间。

同时推出新文字转语音模型,强化语音输出可调整性,开发者可控制语气与风格。

OpenAI语音模型的提升来自特化预训练、模型蒸馏技术、强化学习机制等重要改进。

OpenAI API的语音相关功能已全面开放,并与Agents SDK整合,简化开发流程。

OpenAI宣布推出新一代語音轉文字與文字轉語音模型,擴展API功能強化多語言語音代理開發能力。新模型在語音辨識準確度、語音合成表現與客製化能力皆有提升,相較於舊版Whisper與其他競爭對手模型,在字詞錯誤率(WER)方面表現良好。

新語音轉文字模型gpt-4o-transcribe與gpt-4o-mini-transcribe在多語言語音辨識上進行強化,透過強化學習與大規模語音資料集預訓練,提升對不同語言、口音、語速變化與噪音環境的適應能力。根據FLEURS基準測試結果,gpt-4o-transcribe的WER明顯低於Whisper-large-v2與Whisper-large-v3,特別是在英語、歐洲語系與部分亞洲語言的表現優於競爭對手,而在中文、阿拉伯語、印地語等語言的準確度仍有進步空間。

OpenAI同時推出新一代文字轉語音模型gpt-4o-mini-tts,強化語音輸出的可調整性,開發者可透過指令控制語氣與風格,例如讓語音代理以同理心客服或沉穩播報員的方式說話,提供語音應用更高的靈活度。OpenAI仍維持對語音合成技術的安全管控,目前僅提供人工預設語音,並透過監測確保語音輸出符合既定標準。

這次OpenAI語音模型的提升主要來自於數個重要改進。首先,OpenAI採用了針對語音資料的特化預訓練,使模型能夠更精確地學習語音中的細微變化與語境關係。其次,透過進階的模型蒸餾技術,較小的模型gpt-4o-mini-transcribe與gpt-4o-mini-tts得以從更大型的模型學習語音轉錄與語音合成的能力,確保運算效率與準確率。此外,語音轉文字模型採用強化學習機制,以進一步降低轉錄錯誤與語音錯誤辨識的發生率,特別是在低資源語言與非標準語音的處理穩定有所提升。

OpenAI API的語音轉文字與文字轉語音功能目前已全面開放,並提供與Agents SDK的整合,簡化語音應用開發流程。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 语音模型 多语言 API功能
相关文章