Z Potentials 02月28日
速递|ElevenLabs发布独立语音检测模型,旨在精细化理解和转录语音
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

ElevenLabs获1.8亿美元融资,推出语音转文本模型Scribe,支持超99种语言,具备多种功能,将进军语音检测领域,与众多竞争者竞争。

🎤 ElevenLabs以音频生成能力闻名,推出首个独立语音转文本模型Scribe。

🌐 Scribe模型支持超99种语言,部分语言准确度优秀,在多种语言测试中表现优。

🌟 该模型有智能说话人分离等功能,可识别说话人、提供时间戳和标记声音事件。

💰 Scribe定价为每小时转录音频0.40美元,公司将发布低延迟实时版本。

TechCrunch 2025-02-27 12:10 北京

可识别说话人,单词级别的时间戳,自动标记声音事件

图片来源:ElevenLabs

AI 初创公司 ElevenLabs,刚刚筹集了 1.8 亿美元巨额融资 ,主要以其音频生成能力而闻名。该公司通过推出首个独立语音转文本模型 Scribe,迈向了另一个技术方向。

这家估值 33 亿美元的初创公司通过其庞大的语音库,已助力众多企业提供语音转文本服务。然而,该公司现正寻求进军语音检测领域,与 GladiaSpeechmaticsAssemblyAIDeepgram 以及 OpenAI 的 Whisper 模型等竞争者一较高下。

ElevenLabs 的 Scribe 模型在发布时支持超过 99 种语言。该公司将该模型中的超过 25 种语言归类为“优秀准确度”类别,其中词错误率低于 5%

该列表包括英语(声称准确率为 97%)、法语、德语、印地语、印度尼西亚语、日语、卡纳达语、马拉雅拉姆语、波兰语、葡萄牙语、西班牙语和越南语。

其他语言则根据词错误率的高低分为不同类别:高(5%至 10%词错误率)、良好(10%至 20%词错误率)和中等(25%至 50%词错误率)。

该公司表示,在 FLEURS 和 Common Voice 基准测试中,该模型在多种语言上均优于 Google Gemini 2.0 Flash 和 Whisper Large V3

ElevenLabs 已为其去年发布的 AI 对话代理平台开发了语音转文本组件。然而,这是该公司首次发布独立的语音检测模型。在上个月与 TechCrunch 的对话中,CEO Mati Staniszewski 谈到了改进语音检测模型。

图片来源:ElevenLabs

“我们想要更好地理解对话中所说的内容。我们的研究不仅需要生成内容,还要理解和转录语音。”

Staniszewski 当时说道。“许多人认为语音转文字已经是个已解决的问题。但对于许多语言来说,它的表现相当糟糕。我们认为我们可以构建更好的语音检测模型,因为我们有内部团队来标注数据并迅速给予反馈。”

该模型还具备智能说话人分离功能,可识别谁在说话,提供单词级别的时间戳以确保字幕的准确性,并自动标记声音事件,如观众笑声。这家初创公司为客户提供了一种方式,可直接在工作室中将视频内容转录,以添加字幕或说明。

Scribe 目前仅支持预录制的音频格式。公司表示将很快发布低延迟的实时版本模型。这意味着它目前还不适用于会议转录或语音笔记。

ElevenLabs 将 Scribe 的定价定为每小时转录音频 0.40 美元。虽然这一价格具有竞争力,但部分竞争对手目前以更低的价格提供音频转录服务,并具备一些功能上的差异。


本文翻译自:Techcrunch

https://techcrunch.com/2025/02/26/elevenlabs-is-launching-its-own-speech-to-text-model/

编译:ChatGPT

-----------END-----------

我们正在招募新一期的实习生

我们正在寻找有创造力的00后创业


关于Z Potentials

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ElevenLabs 语音转文本 音频生成 Scribe模型
相关文章