赛博禅心 03月21日 17:37
语音转文本,文本转语音:OpenAI 发布了 2 套新模型,1 个新网站
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 在凌晨发布了语音转文本(STT)模型、文本转语音(TTS)模型以及一个体验网站 OpenAI.fm。其中,STT 模型包括 gpt-4o-transcribe 和 gpt-4o-mini-transcribe,性能更优,价格更具竞争力。TTS 模型为 gpt-4o-mini-tts,可控制语音风格,但效果有待提升。OpenAI.fm 则是一个用于调试语音的 Playground,方便用户体验和导出代码。总的来说,这是一次实用性的发布,STT 模型表现出色,而 TTS 模型和 Playground 也有其独特的价值。

🗣️ 语音转文本 (STT) 模型:OpenAI 推出了 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 两款模型,价格和性能均优于此前的 Whisper 模型。新模型在处理口音、噪音和不同语速方面表现更佳,提供纯转文字和转文字+翻译(仅限翻译成英文)两种功能。

💰 价格对比:与 Whisper 相比,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 在价格上更具优势,前者价格与 Whisper 相当,后者则更低。例如,Whisper 部署版的价格为 $0.006/分钟,而 gpt-4o-mini-transcribe 的价格约为 $0.003/分钟。

🎙️ 文本转语音 (TTS) 模型:OpenAI 推出了 gpt-4o-mini-tts 模型,该模型允许用户指定说话内容和风格。例如,用户可以指定“娇滴滴的语气”或“萝莉音”。该模型最大支持 2000 token 的内容,价格约为 $0.015/分钟。

🌐 新网站 OpenAI.fm:这是一个调试语音的 Playground,用户可以在该网站上体验语音转换功能。该网站还提供一键导出代码的功能,方便用户将代码应用于自己的项目中。

原创 金色传说大聪明 2025-03-21 03:11 北京

不大的发布,实用的东西

凌晨 1 点的时候,OpenAI 突然做了三项发布:


结论前置:

不大的发布,实用的东西,不错的 PlayGround


剩下的,容我逐个道来。



语音转文本(STT)模型

两款模型:gpt-4o-transcribe 和 gpt-4o-mini-transcribe,比之前的 Whisper 价格更优,性能更好,尤其在处理口音、噪音和不同语速方面表现更佳。


先是价格对比


再是错误率对比(越低越好)

对比自家的 Whisper

对比竞品模型


这俩 endpoint,一个是 transcriptions,另一个是translations,同样可以用于新模型。前者是纯转文字,简单调用起来是这样:

from openai import OpenAI
client = OpenAI()

audio_file = open("/path/to/file/audio.mp3""rb")
transcription = client.audio.transcriptions.create(
  model="whisper-1"
  file=audio_file
)

print(transcription.text)


后者是转文字+翻译(仅限翻译成英文),调用大概这样。

from openai import OpenAI
client = OpenAI()

audio_file = open("/path/to/file/speech.mp3""rb")
transcription = client.audio.transcriptions.create(
  model="whisper-1"
  file=audio_file, 
  response_format="text"
)

print(transcription.text)


剩下的,是一些接口参数更新:


详细文档:

https://platform.openai.com/docs/guides/speech-to-text



文本转语音(TTS)模型

模型名称是 gpt-4o-mini-tts 可控性很强的 TTS:


中文示例

来自赛博禅心音频:中文坤坤


英文示例

来自赛博禅心音频:英文坤坤


我个人感觉效果不是很好(但可以 roll 点音色);

长度方面,最大支持 2000 token 的内容;

价格方面,约 $0.015/min,示例代码如下:

import asyncio

from openai import AsyncOpenAI
from openai.helpers import LocalAudioPlayer

openai = AsyncOpenAI()

input = """大家好,我是练习时长两年半的个人练习生,你坤坤,喜欢唱、跳、Rap和篮球,music~\n\n在今后的节目中,有我很多作词,作曲,编舞的原创作品,期待的话多多投票吧!"""

instructions = """用娇滴滴的语气,萝莉音"""

asyncdefmain() -> None:

    asyncwith openai.audio.speech.with_streaming_response.create(
        model="gpt-4o-mini-tts",
        voice="alloy",
        input=input,
        instructions=instructions,
        response_format="pcm",
    ) as response:
        await LocalAudioPlayer().play(response)

if __name__ == "__main__":
    asyncio.run(main())


详细文档:

https://platform.openai.com/docs/guides/text-to-speech



新网站:OpenAI.fm

这是一个调试语音的 PlayGround,挺好玩的

还可以在右上角,一键导出代码




结论

不大的发布,实用的东西:

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 语音转文本 文本转语音 STT TTS
相关文章