智源社区 03月22日 12:13
OpenAI上新:语音转文本、文本转语音2套新模型 ,1个新网站
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布了语音转文本(STT)和文本转语音(TTS)模型,并推出了一个名为OpenAI.fm的体验网站。新的STT模型在价格和性能上都优于之前的Whisper模型,尤其在处理口音、噪音和不同语速方面表现更佳。TTS模型在可控性上有所提升,但效果有待提高。OpenAI.fm网站提供了一个调试语音的PlayGround,方便用户体验和导出代码。Founder Park正在搭建开发者社群,为开发者提供交流和资源对接的机会。

🗣️ 语音转文本模型:OpenAI推出了gpt-4o-transcribe和gpt-4o-mini-transcribe两款STT模型,价格更优,性能更佳,尤其在处理口音、噪音和不同语速方面表现更佳。前者是纯转文字,后者是转文字+翻译(仅限翻译成英文)。

⏱️ 接口参数更新:STT模型支持时间戳功能,通过设置timestamp_granularities参数,可以获取带有时间戳的JSON输出;支持流式转录,通过设置stream=True,可以实时接收转录事件;还提供了实时API,可以通过WebSocket连接实时发送音频数据并接收转录事件。

🎤 文本转语音模型:OpenAI推出了gpt-4o-mini-tts模型,可控性强,可以指定说话的内容和风格,例如指定语气和音色。最大支持2000 token的内容,价格约为$0.015/min。

🌐 OpenAI.fm网站:这是一个调试语音的PlayGround,用户可以在该网站上体验语音功能,并在右上角一键导出代码。

凌晨 1 点的时候,OpenAI 突然做了三项发布:

    语音转文本(STT)模型

    文本转语音(TTS)模型

    一个体验网站:OpenAI.fm
结论前置:
不大的发布,实用的东西,不错的 PlayGround

剩下的,容我逐个道来。

Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核后工作人员会拉你入群~
进群之后,你有机会得到:

    高浓度的主流模型(如 DeepSeek 等)开发交流;

    资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;

    好用、有趣的产品/案例,Founder Park 会主动做宣传。

01 

语音转文本(STT)模型

两款模型:gpt-4o-transcribe 和 gpt-4o-mini-transcribe,比之前的 Whisper 价格更优,性能更好,尤其在处理口音、噪音和不同语速方面表现更佳。

先是价格对比

    Whisper(OpenAI 部署版): $0.006/min

    gpt-4o-transcribe: ~ $0.006/min

    gpt-4o-mini-transcribe: ~ $0.003/min

再是错误率对比(越低越好)

对比自家的 Whisper

对比竞品模型

这俩 endpoint,一个是 transcriptions,另一个是translations,同样可以用于新模型。前者是纯转文字,简单调用起来是这样:

from openai import OpenAI
client = OpenAI()

audio_file = open("/path/to/file/audio.mp3""rb")
transcription = client.audio.transcriptions.create(
  model="whisper-1"
  file=audio_file
)

print(transcription.text)

后者是转文字+翻译(仅限翻译成英文),调用大概这样。

from openai import OpenAI
client = OpenAI()

audio_file = open("/path/to/file/speech.mp3""rb")
transcription = client.audio.transcriptions.create(
  model="whisper-1"
  file=audio_file, 
  response_format="text"
)

print(transcription.text)

剩下的,是一些接口参数更新:

    时间戳 (Timestamps):通过设置 timestamp_granularities 参数,可以获取带有时间戳的 JSON 输出,精确到句子片段或单词级别。

    流式转录 (Streaming transcriptions):通过设置 stream=True,可以在模型完成音频片段的转录后立即接收到 transcript.text.delta 事件,最终会收到包含完整转录的 transcript.text.done 事件。

    实时 API (Realtime API):对于正在进行的音频流(例如实时会议或语音输入),可以通过 WebSocket 连接实时发送音频数据并接收转录事件。

详细文档:

https://platform.openai.com/docs/guides/speech-to-text

02 

文本转语音(TTS)模型

模型名称是 gpt-4o-mini-tts 可控性很强的 TTS:

    可以指定要说的内容,如:“我是练习时长两年半的个人练习生”

    可以指定说话的风格,如:“用娇滴滴的语气”

中文示例

英文示例

我个人感觉效果不是很好(但可以 roll 点音色);

长度方面,最大支持 2000 token 的内容;

价格方面,约 $0.015/min,示例代码如下:

import asyncio

from openai import AsyncOpenAI
from openai.helpers import LocalAudioPlayer

openai = AsyncOpenAI()

input = """大家好,我是练习时长两年半的个人练习生,你坤坤,喜欢唱、跳、Rap和篮球,music~\n\n在今后的节目中,有我很多作词,作曲,编舞的原创作品,期待的话多多投票吧!"""

instructions = """用娇滴滴的语气,萝莉音"""

asyncdefmain() -> None:

    asyncwith openai.audio.speech.with_streaming_response.create(
        model="gpt-4o-mini-tts",
        voice="alloy",
        input=input,
        instructions=instructions,
        response_format="pcm",
    ) as response:
        await LocalAudioPlayer().play(response)

if __name__ == "__main__":
    asyncio.run(main())

详细文档:

https://platform.openai.com/docs/guides/text-to-speech

03 

新网站:OpenAI.fm

这是一个调试语音的 PlayGround,挺好玩的

还可以在右上角,一键导出代码

结论

不大的发布,实用的东西:

    STT 很实用,Whisper 可以退役了

    TTS 效果一般,不推荐用

    PlayGround 的设计很不错,代码导出很方便

更多阅读
硅基流动:关于 DeepSeek-R1 API 的评测,至少有 7 个误区
Wiz:320亿美元、谷歌史上最大收购,团队两次创业成功的背后故事
Lovable:欧洲增速最快AI企业,15人团队3个月ARR破1700万美元
Notion创始人复盘:成为独角兽之后,我们走了哪些弯路?

转载原创文章请添加微信:founderparker

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 语音转文本 文本转语音 STT TTS
相关文章