智源社区 04月24日 20:18
两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Nari Labs开源的Dia-1.6B是一款强大的文本转语音模型,由两位本科生自学3个月开发。该模型能够生成逼真的对话,并融入语气、咳嗽、笑声等细节,在GitHub上迅速获得高关注。Dia-1.6B模型开源,支持多种音色,并提供与ElevenLabs和SeaSame等模型的对比。尽管目前版本不支持中文,且在线Demo存在语速问题,但其在单张RTX A4000上能以每秒40个token的速度生成音频,未来还将推出量化版本和CPU支持。项目灵感源于谷歌NotebookLM,旨在提供更强的声音控制和脚本自由度。

🗣️ Dia-1.6B是一个由Nari Labs开源的文本转语音模型,由两位本科生历时3个月自学完成,项目0融资启动,灵感来源于谷歌的NotebookLM。

🚀 该模型能够生成具有真实感的对话,并融入语气、咳嗽、笑声等细节,在GitHub上获得了近5000个标星,展示了其强大的技术实力和社区影响力。

🎤 Dia-1.6B支持多种音色,通过[s1] [s2]标签实现,并提供与ElevenLabs和SeaSame等模型的对比。用户可以通过添加音色提示词或固定随机种子来保持特定音色。

💡 该模型在单张英伟达RTX A4000上每秒约可生成40个token,未来将推出量化版本和CPU支持,以提高推理速度和降低算力需求。

⚠️ 目前在线Demo存在一些问题,如不支持中文和语速问题。但开源社区也在通过优化torch编译等方式提高推理速度和节省显存。

谷歌现象级产品NotebookLM,两个本科生自学3个月就复刻了?

Nari Labs刚刚开源的Dia-1.6B,能够生成关于任何主题的对话,语音音色自然,还会添加语气、咳嗽声、笑声等。

官方演示提供了与热门语音模型ElevenLabs和SeaSame的对比,先来感受一下:

Dia-1.6B模型权重与推理代码全开源,在GitHub上不到一天就获得近5000标星。

目前Dia 1.6B在单张英伟达RTX A4000上每秒约可生成40个token,而86个token大约是1秒的音频内容。

也就是说,在更强的GPU或者多卡配置下可以做到实时生成音频

官方表示完整版模型需要10GB显存运行,未来会添加量化版本,以及CPU支持。

不过开源社区已经通过优化torch编译进一步提高推理速度和节省显存。

如果没有算力资源,也可以到HuggingFace试玩Demo,不过很可惜,目前版本不支持中文。

真实语气语音生成

使用Dia-1.6B非常简单,用[s1] [s2]标签带标两个不同的音色,目前模型为针对任何音色微调,每次都会随机得到不同的音色。

如果想保持特定音色,可以添加音色提示词(教程稍后发布)或固定随机种子。

语气会自动适应文字内容,如官方演示中一段与着火了有关的对话,AI语气就明显紧张起来。

相比之下,Eleven Labs和Seasame模型生成的语气还是不紧不慢的。

只需使用括号可添加咳嗽、吸鼻子、清嗓子、笑声等要素,特别是笑声会与。其他模型暂不支持这个功能。

不过目前版本的在线Demo也有一些问题,由于最大生成时长相对固定,输入的文字越多语速就会越快。

如果在参数中调整速度因子,会像调整音频播放速度一样让声音更低沉,没那么自然了。

两位本科生自学3个月打造

Nari Lab创始成员Toby Kim与Jaeyong Sung,来自韩国首尔大学和韩国科学技术院(KAIST),其中还有一人在服兵役兼职工作,整个项目0融资启动,自学3个月完成。

Toby Kim透露项目灵感正是来自谷歌去年爆火的NoteBook LM自动生成播客对话功能,但他们想要对声音的控制力更强,脚本的自由度更高。

他们尝试了当时市面上所有的文本转语音API后,认为没有一个听起来像真实的人类对话。

于是他们靠申请免费的谷歌研究计划TPU资源训练模型,并推荐学习入门TPU的团队去看DeepMind的《How to Scale Your Model》 和HuggingFace的《Ultra-Scale Playbook》

未来,他们计划把Dia打造成一款完整应用,可以创建有趣的对话、重新组合内容并与好友分享。

在线试玩:
https://huggingface.co/spaces/nari-labs/Dia-1.6B

How to Scale Your Model
https://jax-ml.github.io/scaling-book/
Ultra-Scale Playbook
https://huggingface.co/spaces/nanotron/ultrascale-playbook

参考链接:
[1]https://x.com/_doyeob_/status/1914464979266449863
[2]https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Dia-1.6B 开源 语音AI 文本转语音
相关文章