Z Potentials 前天 14:21
速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

两名本科生开发的开源AI语音模型Dia,凭借其16亿参数规模和强大的语音克隆功能,对市场上的合成语音工具,如ElevenLabs,带来了冲击。该模型支持生成自然对话,包括咳嗽声、笑声等,并可在普通PC上运行。尽管技术上具有竞争力,但其潜在的滥用风险和版权问题也引发关注。Nari Labs计划在Dia基础上构建社交平台,并扩展对英语以外语言的支持。

🗣️ Dia模型由两名本科生开发,拥有16亿参数,旨在生成类似Google NotebookLM的播客风格剪辑。该模型在Google的TPU Research Cloud上训练,并可在具有至少10GB VRAM的现代PC上运行。

🎙️ Dia的核心功能包括生成对话、自定义说话者语气以及插入非语言线索,如咳嗽和大笑。TechCrunch的测试表明,其语音克隆功能是同类产品中最易于使用的之一。

⚠️ 然而,Dia模型缺乏保护措施,存在被用于制作虚假信息或诈骗录音的风险。Nari Labs不鼓励滥用该模型,但对其可能造成的滥用不承担责任。此外,模型的训练数据来源和版权问题也备受关注。

techcrunch 2025-04-23 11:49 北京

16亿参数规模,支持带咳嗽声、笑声的自然对话生成,其语音克隆功能被实测评为"最简易之一,ElevenLabs等企业面临技术开源化的冲击

图片来源:Nari

两名没有高度专业 AI 知识的本科生表示,他们已经创建了一个公开可用的 AI 模型,可以生成类似于 Google 的 NotebookLM 的播客风格的剪辑。

合成语音工具的市场巨大,并且还在不断增长。ElevenLabs 是最大的参与者之一,但不乏挑战者(参见 PlayAISesame 等)。投资者认为这些工具具有巨大的潜力。 

根据 PitchBook 的数据 ,开发语音 AI 技术的初创公司去年筹集了超过 3.98 亿美元的风险投资。

Nari Labs 是新发布模型背后的团队,总部位于韩国的联合创始人之一 Toby Kim 表示,他和他的同事在三个月前开始学习语音 AI。受 NotebookLM 的启发,他们希望创建一个模型,该模型可以更好地控制生成的声音和脚本中的自由度

Kim 说,他们使用了 Google 的 TPU Research Cloud 计划来训练 Nari 的模型 Dia,该计划为研究人员提供了对该公司 TPU AI 芯片的免费访问。Dia 有 16 亿个参数,可以从脚本中生成对话,让用户自定义说话者的语气并插入不流畅、咳嗽、大笑和其他非语言线索。

参数是模型用于进行预测的内部变量。通常,参数越多的模型性能越好。

Dia 可从 AI 开发平台 Hugging Face 和 GitHub 获得,可以在大多数具有至少 10GB VRAM 的现代 PC 上运行。除非提示使用预期样式的描述,否则它会生成随机语音,但它也可以克隆人员的语音。

 TechCrunch 通过 Nari 的网络演示对 Dia 进行的简短测试中,Dia 运行得相当不错,可以毫无怨言地生成关于任何主题的双向聊天。语音质量似乎与其他工具相比具有竞争力,而语音克隆功能是这位记者尝试过的最简单的功能之一。

然而,与许多语音生成器一样Dia 几乎没有提供任何保护措施。制作虚假信息或诈骗录音很容易。

在 Dia 的项目页面上,Nari 不鼓励滥用该模型来冒充、欺骗或以其他方式参与非法活动,但该组织表示它不对滥用负责。

Nari 也没有透露它抓取了哪些数据来训练 DiaDia 可能是使用受版权保护的内容开发的。

Hacker News 的一位评论者指出,一个样本听起来像 NPR “Planet Money”播客的主持人。在受版权保护的内容上训练模型是一种普遍但法律上可疑的做法。一些 AI 公司声称合理使用使他们免于承担责任,而权利持有人则声称合理使用不适用于培训。

无论如何,Kim 表示,Nari 的计划是在 Dia 和更大的未来模型之上创建一个具有社交方面的合成语音平台。Nari 还打算发布一份 Dia 的技术报告,并将该模型的支持扩展到英语以外的语言。


参考资料

https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm/

编译:ChatGPT

-----------END-----------
🚀 我们正在招募新一期的实习生
🚀 我们正在寻找有创造力的00后创业者
关于Z Potentials

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI语音 开源 ElevenLabs 语音克隆
相关文章