AI & Big Data 04月24日
Nari Labs開源具備16億參數的文字轉語音模型Dia
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Nari Labs团队开源了16亿参数的文字转语音模型Dia,该模型在GitHub上获得了广泛关注。Dia在发布48小时内便获得了超过7,800颗星,并在Hugging Face上成为最受欢迎的模型。Dia模型不仅在声音质量上与Google NotebookLM播客相媲美,甚至超越了ElevenLabs Studio与Sesame的开源模型。该模型由一个仅1.5人的团队在没有资金的情况下开发,其成功源于对Google NotebookLM播客功能的喜爱,以及对技术的深入学习。Dia支持英文,允许用户调整音频输出,控制情感与音调,并能生成各种非语言交流,例如大笑和咳嗽,目前已在Hugging Face Space提供试用。

🗣️ Nari Labs开源了Dia模型,该模型拥有16亿参数,是一款文字转语音模型,发布后迅速获得GitHub和Hugging Face的广泛关注。

💡 Dia模型在声音质量上与Google NotebookLM播客相当,甚至超越了ElevenLabs Studio与Sesame的开源模型,体现了其卓越的性能。

🛠️ Dia模型允许用户调整音频输出,控制情感与音调,并能生成各种非语言交流,如大笑和咳嗽等,提供了丰富的语音表现力。

💪 该模型由一个仅1.5人的团队开发,在没有资金的情况下,通过学习JAX、Flax等技术,历时3个月完成,展现了团队的技术实力和创新精神。

由兩名南韓青年創立的Nari Labs本周二(4/22)透過GitHub及Hugging Face,開源了具備16億參數的文字轉語音模型Dia,宣稱它不僅與Google NotebookLM播客的品質相當,甚至超越了ElevenLabs Studio與Sesame的開源模型。Dia發布48小時便在GitHub上獲得超過7,800顆星星,並成為Hugging Face上最受歡迎的模型

Nari Labs創辦者之一的Toby Kim於X上分享了他們的心路歷程,這是一個只有1.5人的團隊,因為另一人還在當兵,而且完全沒有資金,也不是AI專家,是因為受到Google NotebookLM去年9月所發布的播客(Podcast)功能的啟發。

Kim說,他們愛上了NotebookLM的播客功能,但想要有更多的聲音控制,更自由的劇本,試過了市場上所有的文字轉語音(Text-to-Speech,TTS)API,但它們聽起來都不像是真正的人類對話,正巧遇見Google的Research Cloud免費供應TPU予研究人員,於是他們開始學習JAX、Flax、平行運算、叢集編排及Pallas核心等技術,並在3個月後得到一個經過充份訓練的1.6B模型,比預期的還難,卻非常值得。

由Nari Labs所建置的Dia模型可直接以文字生成高度逼真的對話,允許使用整調整音訊的輸出,控制情感與音調,而且還能產生各種非語言交流,像是大笑、咳嗽,或是清清嗓子。

該實驗室比較了專門發展自然語音的ElevenLabs Studio模型、Sesame的對話語音模型CSM-1B,以及Dia的表現,顯示Dia的確擁有更自然的聲調,更栩栩如生的聲音表情,也有傑出的聲音節奏感。

目前Dia只支援英文,安裝該模型的最低系統需求為Windows或Linux作業系統,Python 3.8或以上版本,以及一個Nvidia RTX 3080或以上的GPU,或是直接透過Hugging Face Space試用,該實驗室亦正在開發可直接供消費者使用的服務。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Dia模型 文字转语音 Nari Labs 开源
相关文章