Nari Labs開源具備16億參數的文字轉語音模型Dia

AI & Big Data 04月24日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Nari Labs团队开源了16亿参数的文字转语音模型Dia，该模型在GitHub上获得了广泛关注。Dia在发布48小时内便获得了超过7,800颗星，并在Hugging Face上成为最受欢迎的模型。Dia模型不仅在声音质量上与Google NotebookLM播客相媲美，甚至超越了ElevenLabs Studio与Sesame的开源模型。该模型由一个仅1.5人的团队在没有资金的情况下开发，其成功源于对Google NotebookLM播客功能的喜爱，以及对技术的深入学习。Dia支持英文，允许用户调整音频输出，控制情感与音调，并能生成各种非语言交流，例如大笑和咳嗽，目前已在Hugging Face Space提供试用。

🗣️ Nari Labs开源了Dia模型，该模型拥有16亿参数，是一款文字转语音模型，发布后迅速获得GitHub和Hugging Face的广泛关注。

💡 Dia模型在声音质量上与Google NotebookLM播客相当，甚至超越了ElevenLabs Studio与Sesame的开源模型，体现了其卓越的性能。

🛠️ Dia模型允许用户调整音频输出，控制情感与音调，并能生成各种非语言交流，如大笑和咳嗽等，提供了丰富的语音表现力。

💪 该模型由一个仅1.5人的团队开发，在没有资金的情况下，通过学习JAX、Flax等技术，历时3个月完成，展现了团队的技术实力和创新精神。

由兩名南韓青年創立的Nari Labs本周二（4/22）透過GitHub及Hugging Face，開源了具備16億參數的文字轉語音模型Dia，宣稱它不僅與Google NotebookLM播客的品質相當，甚至超越了ElevenLabs Studio與Sesame的開源模型。Dia發布48小時便在GitHub上獲得超過7,800顆星星，並成為Hugging Face上最受歡迎的模型。

Nari Labs創辦者之一的Toby Kim於X上分享了他們的心路歷程，這是一個只有1.5人的團隊，因為另一人還在當兵，而且完全沒有資金，也不是AI專家，是因為受到Google NotebookLM去年9月所發布的播客（Podcast）功能的啟發。

Kim說，他們愛上了NotebookLM的播客功能，但想要有更多的聲音控制，更自由的劇本，試過了市場上所有的文字轉語音（Text-to-Speech，TTS）API，但它們聽起來都不像是真正的人類對話，正巧遇見Google的Research Cloud免費供應TPU予研究人員，於是他們開始學習JAX、Flax、平行運算、叢集編排及Pallas核心等技術，並在3個月後得到一個經過充份訓練的1.6B模型，比預期的還難，卻非常值得。

由Nari Labs所建置的Dia模型可直接以文字生成高度逼真的對話，允許使用整調整音訊的輸出，控制情感與音調，而且還能產生各種非語言交流，像是大笑、咳嗽，或是清清嗓子。

該實驗室比較了專門發展自然語音的ElevenLabs Studio模型、Sesame的對話語音模型CSM-1B，以及Dia的表現，顯示Dia的確擁有更自然的聲調，更栩栩如生的聲音表情，也有傑出的聲音節奏感。

目前Dia只支援英文，安裝該模型的最低系統需求為Windows或Linux作業系統，Python 3.8或以上版本，以及一個Nvidia RTX 3080或以上的GPU，或是直接透過Hugging Face Space試用，該實驗室亦正在開發可直接供消費者使用的服務。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签